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机 器 学 习 ， 如 今 最 令 人 振奋 的 计算 机 领域 之 一 。 看 看 那些 大 公司 ，Google、Facebook、 
Apple、Amazon 早 已 展开 了 一 场 关 于 机 器 学 习 的 军备 竞赛 。 从 手机 上 的 语音 助手 、 垃 圾 邮件 
过 滤 到 园 淘 宝 时 的 物品 推荐 ， 无 一 不 用 到 机 器 学 习 技 术 。 


如 果 你 对 机 器 学 习 感 兴趣 ， 甚 至 是 想 从 事 相 关 职 业 ， 那 么 这 本 书 非 常 适合 作为 你 的 第 一 本 机 
器 学 习 资 料 。 市 面 上 大 部 分 的 机 器 学 习 书 籍 要 么 是 告诉 你 如 何 推导 模型 公式 要 么 就 是 如 何 代 
码 实 现 模型 算法， 这 对 于 零 基础 的 新 手 来 说 ， 阅 读 起 来 相当 困难 。 而 这 本 书 ， 在 介绍 必要 的 
基础 概念 后 ， 着 重 从 如 何 调用 机 器 学 习 算 法 解决 实际 问题 入 手 ， 一 步 一 步 带 你 入 门 。 即 使 你 
已 经 对 很 多 机 器 学 习 算 法 的 理论 很 熟悉 了 ， 这 本 书 仍 能 从 实践 方面 带 给 你 一 些 帮 助 。 


具体 到 编程 语言 层面 ， 本 书 选择 的 是 Python， 因 为 它 简 单 易 恒 。 我 们 不 必 在 枯燥 的 语法 细节 
上 耗费 时 间 ， 一 旦 有 了 想法 ， 你 能 够 快速 实现 算法 并 在 丨 实数 据 集 上 进行 验证 。 在 整个 数据 
科学 领域 ，Python 都 可 以 说 是 稳 坐 语言 榜 头 号 交椅 。 

E 这 是 我 在 阅读 [Python Machine Learning](https://www.amazon.com/Python- 
Machine-Learning-Sebastian-Raschka/dp/1783555130) 的 笔记 而 不 是 严格 的 原文 翻译 ， 如 果 


RMB > HR SB 
我 的 邮箱 : Ijalphabeta@gmail.com 
最 后 ， 我 没有 本 书 的 翻译 版 权 ， 请 勿 商用 。 和 转载 请 注 明 出 处 ， 谢 谢 :) 


d —3 让 计算 机 从 数据 中 学 习 


我 个 人 认为 ， 机 器 学 习 (machine learning) 是 计算 机 领域 中 最 令 人 振奋 的 方向 ! 我 们 生活 在 一 
个 数据 爆炸 的 时 代 ， 通 过 运用 机 器 学 Ie 自学 习 算 法 ， 我 们 可 以 将 数据 转化 成 知识 。 
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这 一 草 ， 我 们 将 学 习 机 器 学 习 的 一 些 重 要 概念 和 几 类 常用 算法 。 最 主要 的 是 可 以 借助 Python 
和 开源 机 器 学 习 库 来 解决 实际 的 问题 。 
我 们 要 讲 到 的 主题 包括 : 


e 机 器 学 习 的 一 些 概 念 
e X2 习 算 法 
如 何 


设计 一 个 成 熟 的 机 器 学 习 系 统 


建立 智能 机 矣 将 数据 转化 为 知识 


> 我 们 最 不 缺 的 就 是 数据 : 不 论 是 结构 化 数据 还 是 非 结 构 数 据 。 oe yu 2s 
学 习 SEA LAMP se (artificial intelligence) 的 子 领域 诞生 了 ， 她 的 目标 是 通过 自学 习 算 法 从 数据 
中 获取 知识 ， 然 后 对 未 来 世界 进行 预测 。 无 需 借 助人 力 从 数据 中 得 到 规则 ， 机 器 学 习 能 够 目 
动 建立 模型 进行 预测 。 机 器 学 习 不 但 在 计算 机 学 科 中 变 得 越发 重要 ， 她 还 在 我 们 的 日 常生 活 
中 发 挥 了 很 大 作用 。 有 了 机 器 学 习 ， 我 们 才能 至 受到 垃圾 邮件 过 滤 技 术 、 文 人 学 和 语音 识别 技 
术 、 可 信赖 的 网 页 搜索 技术 和 上 自动 驾驶 汽车 。 


第 二 章 训练 机 器 学 习 分 类 算法 


在 本 章 ， 我 们 要 学 习 第 一 个 有 确定 性 算法 描述 的 机 器 学 习 分 类 算法 ， 感 知 机 (perceptron) 和 自 
适应 线性 神经 元 (adaptive linear neurons)。 我 们 首先 用 Python 实现 一 个 感知 机 算法 ， 然 后 将 

其 应 用 于 Iris 数据 集 。 通 过 代码 实现 会 帮助 我 们 更 好 地 理解 分 类 的 概念 以 及 如 果 用 Python 有 效 
地 实现 算法 。 学 习 自 适应 线性 神经 元 算法 涉及 到 的 优化 知识 ， 为 我 们 第 三 草 运用 scikit-learn 


中 更 加 复杂 的 分 类 器 打 好 数学 基础 。 
本 章 涉 及 到 的 知识 点 包括 : 


e 对 机 器 学 习 算 法 有 直观 了 解 
e 使 用 pandas, NumPy 和 matplotlib 读 入 数据 ， 处 理 数 据 和 可 视 化 数据 
e 使 用 Python 实现 线性 分 类 算法 
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在 我 们 讨论 感知 机 及 其 相关 算法 细节 前 ， 先 让 我 们 回顾 一 下 机 器 学 习 早 期 的 发 展 历程 。 为 了 
理解 大 脑 工 作 原 理 进 而 设计 人 工 智能 ，Warren McCullock 和 Walter Pitts 在 1943 年 首次 提出 了 
一 个 简化 版 大 脑 细 胞 的 概念 ， 即 McCullock-Pitts(MCP) 神 经 元 (W.S.McCulloch and W.Pitts. A 
Logical Calculus of the Ideas Immanent in Nervous Activity)。 神 经 元 是 大 脑 中 内 部 连接 的 神 
经 细胞 ， 作 用 是 处 理 和 传播 化 学 和 电信 号 ， 可 见 下 图 : 
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McCullock 和 Pitts 描 述 了 如 下 的 神经 细胞 : 可 以 看 做 带 有 两 个 输出 的 简单 逻辑 门 ; 即 有 多 个 输 
入 传递 到 树 突 ， 然 后 在 神经 元 内 部 进行 输入 整合 ， 如 果 宗 积 的 信号 量 超过 茶 个 阅 值 ， 会 产生 

一 个 输出 信号 并 且 通 过 轴 突 进行 传递 。 十 几 年 后 ， 基 于 MCP 神 经 元 模型 ，Frank Rosenblatt 
发 表 了 第 一 个 感知 机 学 习 规 则 (F.Rosenblatt, The Perceptron, a Perceiving and Recognizing 
Automaton. Cornell Aeronautical Laboratory, 1957)。 基于 此 感知 机 规则 ，Rosenblatt 提 出 了 
能 够 目 动 学 习 BEEN 法 ， 权 重 即 输入 特征 的 系数 。 在 监督 学 习 和 分 类 任务 语 境 

中 ， 上 面 提 到 的 算法 还 能 够 用 于 预测 一 个 样本 是 属于 类 别人 A 还 是 类 别 B。 


更 准确 的 描述 是 ， 我 们 可 以 将 上 面 提 到 的 样本 属于 哪 一 个 类 别 这 个 问题 称 之 为 二 分 类 问题 
(binary classification task), 我 们 将 其 中 涉及 到 的 两 个 类 别 记 作 1( 表 示 正 类 ) 和 -1( 表 示 负 类 )。 我 
们 再 定义 一 个 称 为 激活 函数 (activation function) 的 东 东 ， 激 活 函 数 接收 一 个 输入 向 量 工 和 相 
应 的 权重 向 量 宙 的 线性 组 合 ， 其 中 也 被 称 为 网 络 输 入 (2 = W101 sss Umm): 


此 时 ， 如 果 某 个 样本 zl 的 激活 值 ， 即 ”大 于 事先 设置 的 阅 值 ,我 们 就 说 样本 TI 属于 类 列 
1， 否 则 属于 类 别 -1。 


在 感知 机 学 习 算 法 中 ， 激 活 函 数 ”的 形式 非常 简单 ， 仅 仅 是 一 个 单位 阶 路 函数 (也 被 称 为 
Heaviside It 5 28 2x): 


lifz2ü 


—] otherwise o mE 
| 7] 4B EDGE RITA Ma FRAWHLA 


义 一 个 权重 和 参数 | 这 样 我 们 可 以 对 x 给 出 更 加 紧凑 的 公式 
z = wgrg + Wiz +... + Wyrm = Wr, 此 时 

l if z>0 
一 ] otherwise 


下 面 左 图 描述 了 感知 机 的 激活 函数 怎样 将 网 络 输 入 z 二 wTI 压 缩 到 二 元 输出 (-1,1)， 右 图 描述 
了 感知 机 如 何 区 分 两 个 线性 可 分 的 类 别 。 


b(wrx) =0 


\ 











不 论 MCP 神 经 元 还 是 Rosenblatt 的 阅 值 感知 机 模型 ， 他 们 背后 的 idea 都 是 试图 使 用 简单 的 方法 
来 模拟 大 脑 中 单个 神经 元 的 工作 方式 : 要 么 传递 信号 要 么 不 传递 。 因 此 ，Rosenblatt 最 初 的 感 
知 机 规则 非 党 简单， 步骤 如 下 : 


1， 将 权重 参数 初始 化 为 0 或 者 很 小 的 随机 数 。 


1， 对 于 每 一 个 训练 集 样本 Ti 执行 下 面 的 步骤 : 


o 1、 半数 输 出 值 


o 2、 更 新 权重 参数 . 
此 处 的 输出 值 就 是 单位 阶 跃 函数 预测 的 类 别 (1,-1)， 参 数 向 量 册 中 的 每 个 Wj 的 更 新 过 程 可 以 用 
数学 语言 表示 为 : 
= WM. AW. 
W, =W, 十 Aw, | 


其 中 ， 用 于 更 新 权重 “六 在 感知 机 算法 中 的 计算 公式 为 : 


(i Ali) \ U 
Aw, - (x! JE y» n 
其 中 称 为 学 习 率 (learning rate), 是 一 个 介 于 0.0 和 1.0 
之 间 的 第 数 ， y" E BAMA AMES KS > 是 对 第 i 个 训练 样本 的 预测 类 别 。 权重 向 量 
中 的 每 一 个 参数 WwW_ 人 从 是 同时 被 更 新 的 ， 这 意味 着 在 所 有 的 计算 出 来 以 前 不 会 重新 计算 
( 译 者 注 : 通俗 地 说 ， 我 们 在 计算 出 一 个 ， ea ; 然后 不 
断 重复 上 面 的 步骤 )。 具 体 地 ， 对 于 一 个 二 维 数据 集 ， 我 们 可 以 将 更 新 过 程 写 为 : 


Aw, = =n(y" V output" | 
Aw, = =n(y® ) — output! IE x 


i) o VU) 
AW, =n(y" i ! — output? )x, j 


在 我 们 用 Python 实现 感知 机 算法 之 前 ， 我 们 先 来 划算 一 下 这 个 简单 的 算法 是 多 么 美妙 。 如 果 
感知 机 预测 的 类 别 正 确 ， 则 权重 参数 不 做 改变 ， 因 为 : 


(i) 


Aw, =7(-19 --19) x, =0 


o en 10) — 
Aw, = (1-19) x, =0 


当 预 测 结 果 不 正确 时 ， 权 重 会 朝 着 正确 类 别 方 
向 更 新 ( 译 者 注 : 如 果 正 确 类 别 是 1， 权 重 参 数 会 增 大 ; 如 果 正 确 类 别 是 -1， 权 重 参 数 会 减 小 ): 


AW, — 1] (io P | x =) ( 2) X, 


Uu 


Sw =n(-10 i -5(-2)x | 


(a) 
我 们 可 以 具体 化 上 面 的 乘 数 二 ,比如 一 个 简单 的 例子 


假设 j -05 ,我 们 将 样本 误 分 类 为 -1. 此 时 ， 更 新 过 程 会 对 权重 参数 加 1， 下 一 次 在 对 样本 i 计 
算 输 出 值 时 ， 有 更 大 的 可 能 输出 1 : 


Aw, = (1° 4 -19 Jo.5" = (2)0.5” = 


参数 更 新 oe RE, T. o 比如 ， | RANEA AMOR =2 被 误 分 类 为 -1， 在 更 新 由] 


时 会 朝 着 正确 方法 更 新 更 多 ( 相 比较 ” 5 的 情况 ) : 
Aw, - (19 ——19 29 =(2)20 24 
感知 机 算法 仅 在 两 个 类 别 确实 线性 可 分 并 且 学 习 兴 充分 小 人 o 如 采 两 个 


类 别 不 能 被 一 个 线性 决策 界 分 开 ， 我 们 可 以 设置 最 大 训练 集 迭 数 (epoch) 或 者 可 容忍 的 错 
误 分 类 样本 数 来 停止 算法 的 学 习 过 程 。 


Linearly separable Not linearly separable Not linearly separable 
o 
o 
r o 
++ 


9 ts 


+ 
E 
o 


Q 





在 进入 下 一 节 的 代码 实现 之 前 ， 我 们 来 总 结 一 下 感知 机 的 要 点 : 


Weight update 
- Error 


Net input Activation 
function function 
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数 ， 产 生 一 个 二 分 类 输出 -1 或 1 作为 预测 的 样本 类 别 。 在 整个 学 习 阶 段 ， 输 出 用 于 计算 预测 错 
ixX(y- _) 和 更 新 权重 参数 。 


使 用 Python 实现 感知 机 算法 


在 前 一 节 ， 我 们 学 习 了 Rosenblatt 的 感知 机 如 果 工 作 ; 这 一 节 我 们 用 Python 对 其 进行 实现 ， 并 
且 应 用 于 Iris 数据 集 。 关 于 代码 的 实现 ， 我 们 使 用 面向 对 象 的 编程 思想 ， 是 义 一 个 感知 机 接口 
作为 Python 类 ， 类 中 的 方法 主要 有 初始 化 方法 ， 信 方法 和 predict 方 法 。 


import numpy as np 


class Perceptron(object): 
"""Perceptron classifier. 


Parameters 
eta:float 

Learning rate (between 0.0 and 1.0) 
n iter:int 

Passes over the training dataset. 


Attributes 
w : d1d-array 
Weights after fitting. 
errors : list 
Numebr of misclassifications in every epoch. 


def _ init (self, eta=0.01, n iter-10): 
self.eta - eta 
self.n iter - n iter 


def fit(self, X, y): 
"""Fit training data. 


Parameters 

X: {array-like}, shape-[n samples, n features] 
Training vectors, where n samples is the number of samples 
and n featuers is the number of features. 

y: array-like, shape-[n smaples] 
Target values. 


Returns 


self: object 


self.w = np.zeros(1 + X.shape[1]) # Add w O 


self.errors = [] 


for _ in range(self.n iter): 
errors = 0 
for xi, target in zip(X, y): 
update - self.eta * (target - self.predict(xi)) 
self.w [1:] += update * xi 
self.w [0] += update 
errors += int(update !- 0.0) 
self.errors .append(errors) 
return self 


def net input(self, X): 
"""Calculate net Input 
return np.dot(X, self.w [1:]) + self.w [0] 


def predict(self, X): 
"""Return class label after unit step""" 
return np.where(self.net input(X) >= 0.0, 1, -1) #analoge ? : in C++ 


有 了 以 上 的 代码 实现 ， 我 们 可 以 初始 化 一 个 新 的 Perceptron 对 和 象 ， 并 且 对 学 习 率 eta 和 和 迭代 次 
数 n_iter 赋 值 ，fit 方 法 先 对 权重 参数 初始 化 ， 然 后 对 训练 集中 每 一 个 样本 循环 ， 根 据 感 知 机 算 
法 对 权重 进行 更 新 。 类 别 通 过 predict 方 法 进行 预测 。 除 此 之 外 ，self.errors 还 记录 了 每 一 轮 
中 误 分 类 的 样本 数 ， 有 助 于 接 下 来 我 们 分 析 感 知 机 的 训练 过 程 。 


基于 Iris 数据 集训 练 感知 机 模型 


我 们 使 用 Eirs 数 据 集 检 验 上 面 的 感知 机 代码 ， 由 于 我 们 实现 的 是 一 个 二 分 类 感知 机 算法 ， 所 以 
我 们 仅 使 用 Iris 中 Setosa 和 Versicolor 两 种 花 的 数据 。 为 了 简便 ， 我 们 仅 使 用 sepal length 和 
petal length 两 维度 的 特征 。 记 住 ， 感 知 机 模型 不 局 限于 二 分 类 问题 ， 可 以 用 通过 One-vSs-AlI 技 
巧 扩 展 到 多 分 类 问题 。 


One-vs-AlI(OvA) 有 时 也 被 称 为 Dne-vs-Rest(OvR)， 有 是 一 种 第 用 的 将 二 分 类 分 类 器 扩展 为 多 
分 类 分 类 器 的 技巧 。 通 过 OVA 技巧 ， 我 们 为 每 一 个 类 别 训练 一 个 分 类 器 ， 此 时 ， 对 应 类 别 为 
正 类 ， 其 余 所 有 类 别 为 负 类 。 对 新 样本 数据 进行 类 别 预测 时 ， 我 们 使 用 训练 好 的 所 有 类 别 模 
型 对 其 预测 ， 将 具有 最 高 置信 和 度 的 类 别 作为 最 后 的 结果 。 对 于 感知 机 来 说 ， 最 高 置信 度 指 的 
是 网 络 输入 Zz 绝对 值 最 大 的 那个 类 别 。 
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回 到 刚才 的 Iris 数据 和 集 ， 我 们 使 用 pandas 读 取 数 据 ， 然 后 通过 pandas 中 的 tail 方 法 输出 最 
行 数 据 ， 看 一 下 Iris 数据 集 格式 : 


In [1]: import pandas as pd 
In [3]: df = pd.read csvÜ https://archive. ics. uci. edu/ml/machine-learning-databases/iris/iris.data', header-None) 


In [4]: | df. talg 
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in. I ok 
接 下 来 我 们 抽取 出 前 100 条 样本 ， 这 正好 是 Setosa 和 Versicolor 对 应 的 样本 ， 我 们 将 Versicolor 


对 应 的 数据 作为 类 别 1，Setosa 对 应 的 作为 -1。 对 于 特征 ， 我 们 抽取 出 sepal length 和 petal 
length 两 维度 特征 ， 然 后 用 散 点 图 对 数据 进行 可 视 化 : 


In 


In 


In 


In 


In 


现在 开始 训练 我 们 的 感知 机 模型 ， 为 了 更 好 地 了 解 感 知 机 训练 


[17]: 


[18] : 


[19] : 


[20] 


[21]* 


Smatplotlib inline 

import numpy as np 

import matplotlib.pyplot as plt 
import pandas as pd 


y = df.iloc[O:100, 4]. values 


y = np. where(y = 'Iris-setosa , —l, 1) 


mi 
II 


df.iloc[O:100, [O, 2]]. values 


plt. scatter (X [:50, 0], X[:50, 1], color="red’, marker- o', label- setosa’) 
plt. scatter (X [50:100, 0], X[50:100, 1], color=blue’, marker- x', label= versicolor’) 


plt. xlabel{ petal length’ } 
plt. ylabelt sepal length’) 


plt. legend{loc™ upper left’! 
plt. showt) 


sepal length 





40 45 5.0 5.5 Bü G5 7ü 7.5 
petal length 


BAT ALG HU 0 eB HK xe SUL Fe RSID HRA : 


Im (25): 
In [27] : 
Qut [27] : 
In [30]: 


ppn = Perceptronleta = 0.1, n iter = 10] 
ppn.fitíX, y) 
© main .Perceptron at ÜüxdB2a2e8^ 


plt.plotíranze(l, lenlppn.errors + 1), ppn.errors , marker = 0} 
plt. xlabel (* Epoches’ } 

plt. wlabelt Number of misclassifications’ | 

plt. show |) 
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通过 上 图 我 们 可 以 发 现 ， 第 6 次 迭代 时 ， 感 知 机 算法 已 台 


100% ° 


接 下 来 我 们 将 分 界线 和 画 出 来 : 


fT 


过 程 ， 我 们 将 每 一 轮 的 误 分 类 


， 对 训练 集 的 预测 准 群 率 是 
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基于 Iris 数据 集训 练 感知 机 模型 


In 


In 


In 


[31]: 


[35]; 


[35]: 


from matplotlib. colors import ListedColormap 


def plot decision rsgzion(X, y, classifier, resolution-c.02)]: 


#retup marker generator and color map 

pem 1 1 1 1 1 1 a ^u 1 1 
markers = | 8. X, x», LG 

pe 1 1 1 1 1 1 1 1 1 1 1 
colors = (red, 'blus&', 'lizhtzreen', gray , cyan’) 


cmap = ListedColormap (colorz[:lenínp.uniqueiy))])? 


plot ihe decision surface 
xl mn, xl max = X[:, O].minf) — 1, X[:, O].max() + 1 
x2 min, xZ max = X[:, 1l].minf) — 1, X[:, ll.max( + 1 


xxl, xxZ = np.mesheridinp. aranze!xl min, xl max, resolution], 
np. arange(x? min, xZ max, resolution!) 

Z = classifier.predictinp. array(l[xxl.ravel(], xxZ.ravelil]).T) 

Z = Z.reshape(xxl. shape] 


plt.contourfíxxl, xx2, Z, alpha-).4, cmap=cmap) 
plt. xXlimixxl.min!), xxl.max(]] 
plt. ylimixx2. minil, xxZ.max(]] 


#otat class samples 


for idx, cl im enumeratelnp.uniquely]): 
plt. scatter (x=K[y = cl, 0], y-X|y = cl, 1], 
alpha=.8, c=cmaplidx), 


marker = markers[idx], label-cl) 


plot_decision_region(%, y, classifier-ppn) 
plt. xlabelÜ sepal length [cm]') 

plt. ylabel{ petal length [ecm] 

plt. legend(loc>’ upper left’) 

plt. show!) 


petal length [cm] 





sepal length [cm] 


虽然 对 于 Iris 数据 集 ， 感 知 机 算法 表现 的 很 完美 ， 但 是 "收敛 "一 
题 。Frank Rosenblatt 从 数学 上 证 明了 只 要 两 个 类 别 haai eya ， 则 感知 机 算 


ea 。 然 而， 如 果 数 据 并 非 线 性 可 分 ， 


人 为 设置 


近代 次 数 n_iter。 


是 感知 机 算法 中 的 一 大 问 


感知 计算 法 则 会 一 直 运 行 下 去 ， 除 非 我 们 
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自 适 应 线性 神经 元 及 收敛 问题 


本 节 我 们 学 习 另 一 种 单 层 神 经 网 络 : 自 适应 线性 神经 元 (ADAptive Linear NEuron, 简称 
Adaline)。 在 Frank Rosenblatt 提 出 感知 计算 法 不 久 ，Bernard Widrow 和 他 的 博士 生 Tedd Hoff 
提出 了 Adaline 算 法 作为 感知 机 的 改进 算法 (B.Widrow et al. Adaptive "Adaline" neuron using 


chemical "memistors".) 

40 TRAA > Adaline 7A AHS > E 79 AŽ 7] Adaline t EP SY £L uS 8 P — € 
要 的 概念 : VSL db Ud ABR ce F J Adaline X ZU& FA BRR 8 38 62 Joi (reho BH Ar 
回归 、SVM 等 ) 起 到 抛砖引玉 的 作用 。 

Adaline 和 感知 机 的 一 个 重要 区 别 是 Adaline 算 法 中 权重 参数 更 新 按照 线性 激活 函数 而 不 是 单位 
阶 路 函数 。 当 然 ，Adaline 中 激活 函数 也 简单 的 很 ， |。 

虽然 Adaline 中 参数 更 新 不 是 使 用 阶 跃 函 数 ， 但 是 在 对 测试 集 样本 输出 预测 类 别 时 还 是 使 用 阶 
跃 隙 数 ， 毕 竞 要 输出 离散 值 -1,1。 


Net input Activation Quantizer 
function function 





使 用 梯度 下 降 算 法 最 小 化 损失 函数 


在 监督 机 器 学 习 算 法 中 ， 一 个 重要 的 概念 就 是 定义 目标 函数 (objective function)， 而 目标 函数 
就 是 机 器 学 习 算 法 的 学 习 过 程 中 要 优化 的 目标 ， 目 标 函 数 我 们 常 称 为 损失 函数 (cost 
function)， 在 算法 学 习 ( 即 ， 参 数 更 新 ) 的 过 程 中 就 是 要 最 小 化 损失 函数。 


\ 


xt T Adaline iA > AA LA BAA HAA Sc faze Th 4A MA] V7 A -F FH Fe(Sum of 
Squared Erros, SSE): 


Jw)» z X, p? -o(2?)) 


上 式 中 的 系数 ”完全 是 为 了 求 导数 方便 而 添加 的 ， 没 有 特殊 的 物理 含义 。 相 对 于 感知 机 中 的 
单位 阶 跃 函 数 ， 使 用 连续 现行 激活 函数 的 一 大 优点 是 Adaline 的 损失 函数 是 可 导 的 。 另 一 个 很 
好 的 特性 是 Adaline 的 损失 函数 是 西 函 数 ， 因 为 ， 我 们 可 以 使 用 简单 而 有 效 的 优化 算法 : 梯度 
下 降 (gradient descent) 来 找到 使 损失 函数 取 值 最 小 的 权重 参数 。 


如 下 图 所 示 ， 我 们 可 以 把 梯度 下 降 算 法 看 做 "下 山 "直到 遇 到 局 部 最 小 点 或 者 全 局 最 小 点 才 会 
停止 计算 。 在 每 一 次 迭代 过 程 中 ， 我 们 沿 着 梯度 下 降 方 向 到 出 一 步 ， 而 步伐 的 大 小 由 学 习 府 
和 梯度 大 小 共同 决定 。 


Gradient 





使 用 梯度 下 降 萌 法 ， 实 质 就 是 运用 损失 函数 的 梯度 来 对 参数 进行 更 新 : 


W = W+ AW 
此 时 ， 的 值 由 负 梯 度 乘 以 学 习 举 ”确定 : 


Aw = —7AJ(w) 


而 要 计 和 萌出 损失 函数 的 梯度 ， 我 们 需要 计算 损失 函数 对 每 一 个 权重 参数 的 偏 导数 “了 


因此 ， 


注意 所 有 权重 参数 还 是 同时 更 新 的 ， 所 以 Adaline 算 法 的 学 习 规 则 可 以 简写 : 


虽然 简写 以 后 的 学 习 规 则 和 感知 机 一 样 ， 但 不 要 忘 了 | 的 不 同 。 此 外 ， 还 有 一 点 很 大 的 不 同 
是 在 计算 权重 更 新 ”的 过 程 中 : Adaline 需 要 用 到 所 有 训练 集 样本 才能 一 次 性 更 新 所 有 的 W， 
而 感知 机 则 是 每 次 用 一 个 训练 集 样本 更 新 所 有 权重 参数 。 所 以 梯度 下 降 法 常 被 称 为 批量 梯度 
下 降 ("batch" gradient descent) ° 


福利 : 详细 的 损失 函数 对 权重 的 偏 导数 计算 过 程 为 : 


0J ð lq (j^ - MES ) 


ow ow. 2 
CM j C W, 2 











20w,” 
=> 2p- rts 
"Ip" (2^) = ED 


Python 实现 自 适 应 线性 神经 元 


既然 感知 机 和 Adaline 的 学 习 规 则 非常 相似 ， 所 以 在 实现 Adaline 的 时 候 我 们 不 需要 完全 重 写 ， 
而 是 在 感知 机 代码 基础 上 进 改 得 到 Adaline， 有 具体 地 ， 我 们 需要 修改 八方 法 ， 实 现 梯 度 下 
E EIE. 


class AdalineGD(object): 
"""ADAptive LInear NEuron classifier. 


Parameters 
eta: float 

Learning rate (between 0.0 and 1.0) 
n iter: int 

Passes over the training dataset. 


Attributes: 
w : d1d-array 
Weights after fitting. 
errors : int 
Number of misclassification in every epoch. 


def _ init (self, eta=0.01, n iter-50): 
self.eta - eta 
self.n iter - n iter 


def fit(self, X, y): 
"""Fit training data. 


Parameters 

X: {array-like}, shape-[n samples, n features] 
Training vectors, 

y: array-like, shape-[n samples] 
Target values. 


Returns 


self: object 


self.w = np.zeros(1 + X.shape[1]) 
self.cost_ = [] 


for i in range(self.n iter): 
output - self.net input(X) 


errors = (y - output) 
self.w [1:] += self.eta * X.T.dot(errors) 
self.w [0] += self.eta * errors.sum() 
cost - (errors ** 2).sum() / 2.0 
self.cost .append(cost) 

return self 


def net input(self, X): 
""" Calculate net Input 
return np.dot(X, self.w [1:]) + self.w [0] 


def activation(self, X): 
""" Compute linear activation""" 
return self.net input(X) 

def predict(self, X): 


""" Return class label after unit step""" 
return np.where(self.activation(X) »- 0.0, 1, -1) 


不 像 感 知 机 那样 每 次 用 一 个 训练 样本 来 更 新 权重 参数 ，Adaline 基 于 整个 训练 集 的 梯度 来 更 新 
权重 。 


注意 ，X.T.dot(errors) 是 一 个 矩阵 和 向 量 的 来 法 ， 可 见 numpy 做 和 矩阵 计算 的 方便 性 


| -A | 
|I Z 3 2 | x7-2-2x843x9 50 
4 5 6 : .|4x745x8246x9| |122 


在 将 Adaline 应 用 到 实际 问题 中 时 ， 通 常 需要 先 确 定 一 个 好 的 学 习 率 RHA ARIE A BOE 
收敛 。 我 们 来 做 一 个 试验 ， 设 置 两 个 不 同 的 ” 值 n = 00l, n = 0.0001 » 4 e 3 4 — 4b 85 
损失 有 函数 值 画 出 来 ， 质 探 Adaline 直 如何 学 习 的 . 


(学 习 府 ,迭代 轮 数 n_iter 也 被 称 为 超 参 数 (hyperparameters), 超 参数 对 于 模型 至 关 重 要 ， 在 第 
四 草 我 们 将 学 习 一 些 技巧 ， 能 够 自动 找到 能 使 模型 达到 最 好 效果 的 超 参 数 。) 


In [30]: fig, ax = plt.subplotsinrows-l, ncols-2, figsize=(8, 4)) 
adal = AdalineGDin iter=10, eta-ci.O01).fitiX, v) 
ar [0]. plot irange (l, len(adal.cost ) + 1), 
np. logiQladal. cost_}, marker- o | 
ax [0]. zet. xlabeli Epochs’ } 
ax [0]. set_ylabel ( log (Sum-squared-error)’ } 
ax [0]. set_title{ Adalie — Learning rate 0.017) 


ada? = AdalineGDin iter=10, eta=.0001).f1tlX, y] 
ax[l].plotíranze!l, len(adaZ.cost ) + 1), 

adaz. cost, marker= o') 
ax[1]. set xlabeli Epoches’ } 
ax[l].set vlabsel( Sum-squared-error']) 
ax[1].set_title(? Adaline - Learning rate 0.00017} 


plt. show!) 
Adalie - Learning rate 0.01 si Adaline - Learning rate 0.0001 
25 
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THERA RAJ EA APB ANRAR CAR bit ABR ? meres i 
4h A BAMA RK! 这 说 明 取 值 过 大 的 学 习 座 不 但 对 算法 党 无 益处 反而 危害 大 大 滴 。 碳 
图 虽然 能 够 在 每 一 轮 和 迭代 过 程 中 一 直 在 减 小 损失 函数 的 值 ， enous 度 太 小 了 ， 估 计 至 
少 上 百 轮 和 迭代 才能 收敛 ， 而 这 个 时 间 我 们 是 耗 不 起 的 ， 所 以 学 习 率 值 过 小 就 会 导致 萌 法 收敛 
的 时 间 巨 长 ， 使 得 算法 根本 不 能 应 用 于 实际 问题 。 


下 面 左 图 展示 了 权重 再 更 新 过 程 中 如 何 得 到 损失 函数 1WW) 最 小 值 的 。 右 图 展示 了 学 习 率 过 大 
时 权重 更 新 ， 每 次 都 跳 过 了 最 小 损失 函数 对 应 的 权重 值 。 


Initial 
weight 


Ji — Gradient J(w) | 


Global cost minimum 


Jnin(wj 





许多 机 器 学 习 算 法 都 要 求 先 对 特征 进行 某 种 缩放 操作 ， 比 如 标准 化 (standardization) 和 归 一 化 
(normalization)。 而 缩放 后 的 特征 通常 更 有 助 于 算法 收 化 ， 实 际 上 ， 对 特征 缩放 后 在 运用 梯度 
下 降 算法 往往 会 有 更 好 的 学 习 效果 。 


特征 标准 化 的 计算 很 简单 ， 比 如 要 对 第 j 维 度 特征 进行 标准 化 ， 只 需要 计算 所 有 训练 集 样 本 中 


第 j 维 度 的 平均 值 改 和 标准 差 ”有 即 可 ,然后 套 公式 : 


X c 


标准 化 后 的 特征 均值 为 0， 标 准 差 为 1. 


在 Numpy 中 ， 调 用 mean 和 和 std 方法 很 容易 对 特征 进行 标准 化 : 


In [36]: X std = np. copy (X) 


In [37]: X.std[:, 0] = (X[:,0] —E[:,0].mean(Q}) Z £[:,0]. std) 


In [38]: X std[:, 1] = iX[5, 1] —El:,1].meanQ)) / X[:, 1]. std 


标准 化 后 ， 我 们 用 Adaline 算 法 来 训练 模型 ， 看 看 如 何 收敛 的 (学 习 率 为 0.01) : 


In [38]: ada = AdalineGDin iter-15, eta-c.ü01) 
ada.fit(X std, vy) 


Out[38]: < main .4AdalineGD at Oxel6O0fQ0? 


我 们 将 决策 界 和 算法 学 习 情 况 可 视 化 出 来 : 


Python 实现 自 适应 线性 神经 元 


In [40]: plot decision region(¥ std, y, classifier=ada! 


plt. title’ Adaline - Gradient Descent') 
plt. xlabel(' sepal length [standardized]') 
plt.ylabel(i petal length [standardized]') 
plt. legend{loc= upper left’) 

plt. show) 


plt.plotíranzseíl, leníada.cost ) 十 1), ada. cost, marker” o 
plt. xlabel ( Epoches’ } 

plt. ylabel ( Sum-squared-error'] 

plt. show () 


Adaline - Gradient Descent 


petal length [standardized] 





-2 -1 0 1 2 3 
sepal length [standardized] 


Sum-squared-errar 





Epoches 


Wow 标准 化 后 的 数据 再 使 用 梯度 下 降 Adaline 算 法 竟然 收 贫 了 | 注意 看 Sum-squared- 
error(Fp » Y — W 了) 最 后 并 没有 等 于 0， 即 使 所 有 样本 都 正确 分 类 。 
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在 上 一 节 我 们 学 习 了 如 何 使 用 梯度 下 降 法 最 小 化 损失 兄 数 ， 由 于 梯度 下 降 要 用 到 所 有 的 训练 
样本 ， 因 此 也 被 称 为 批 梯度 下 降 (batch gradient descent)。 现 在 想象 一 下 我 们 有 一 个 非常 大 的 
数据 集 ， 里 面 有 几 百 万 条 样本 ， 现 在 用 梯度 下 降 法 来 训练 模型 ， 可 以 想象 计算 量 将 是 非常 

大 ， 每 一 次 求 梯度 都 要 用 到 所 有 的 样本 。 能 不 能 用 少量 的 样本 来 求 梯度 呢 ? 


随机 梯度 下 降 法 (stochastic gradient descent) 诞 生 啦 | 有 时 也 被 称 为 迭代 (iteration)/ 在 线 (on- 
line) 梯 度 下 降 。 随 机 梯度 下 降 法 每 次 只 用 一 个 样本 对 权重 进行 更 新 ( 译 者 注 : 唔 ， 感 知 机 算法 
也 如 此 , 转 了 一 图， 历史 又 回 到 了 起 点 。): 


(y _ ó( EU ) XO 


虽然 随机 梯度 下 降 被 当 作 是 梯度 下 降 的 近似 算法 ， 但 实际 上 她 往往 比 梯度 下 降 收敛 更 快 ， 因 
为 相同 时 间 内 她 对 权重 更 新 的 更 频繁 。 由 于 单个 样本 得 到 的 损失 有 函数 相对 于 用 整个 训练 集 得 
到 的 损失 闷 数 具有 随机 性 ， 反 而 会 有 助 于 随机 梯度 下 降 算 法 避免 陷入 局 部 最 小 点 。 在 实际 应 
用 随机 梯度 下 降 法 时 ， 为 了 得 到 准确 结果 ， 一 定 要 以 随机 方式 选择 样本 计算 梯度 ， 通 第 的 做 
法 在 每 一 轮 迭 代 后 将 训练 集 进行 打 乱 重 排 (shuffle)。 


Notes: 在 随机 梯度 下 降 法 中 ， 通 常用 不 断 减 小 的 自 适应 学 习 率 替代 固定 学 习 率 ,比如 ,其 
PCL; 22 是 第 数 。 还 要 注意 随机 梯度 下 降 并 不 能 够 保证 使 损失 函数 达到 全 局 最 小 点 ， 但 结果 会 
很 接近 全 局 了 最小。 


随机 柳 度 下 降 法 的 另 一 个 优点 是 可 以 用 于 在 线 学 习 (online learning) » 4& 2X, && 3 ARR IR TR 
积 的 大 规模 数据 时 非常 有 有 用， 比如， 移动 端的 顾客 数据 。 使 用 在 线 学 习 ， 系 统 可 以 实时 更 新 
并 且 如 果 存 储 空 间 快 装 不 下 数据 了 ， 可 以 将 时 间 最 久 的 数据 删除 。 


Notes 除了 梯度 下 降 算法 和 随机 梯度 下 降 算法 之 外 ， 还 有 一 种 常用 的 二 者 折 中 的 算法 : 最 小 
批 学 习 (mini-batch learning)。 很 好 理解 ， 梯 度 下 降 每 一 次 用 全 部 训练 集 计 算 梯 度 更 新 权重 ， 
随机 梯度 法 每 一 次 用 一 个 训练 样本 计算 梯度 更 新 权重 ， 最 小 批 学 习 每 次 用 部 分 训练 样本 计算 
梯度 更 新 权重 ， 比 如 50。 相 对 于 榜 度 下 降 ， 也 小 批 收敛 速度 也 更 快 因为 权重 参数 更 新 更 加 频 
繁 。 此 外 ， 节 小 批 相 对 于 随机 梯度 中 ， 使 用 向 量 操作 替代 for 循 环 ( 每 一 次 跌倒 都 要 遍历 所 有 样 
本 )， 使 得 计算 更 快 。 


上 一 节 我 们 已 经 实现 了 梯度 下 降 来 解 Adaline， 只 需要 做 部 分 修改 就 能 得 到 随机 梯度 下 降 法 求 
解 Adaline。 第 一 个 修改 是 fit 方 法 内 用 每 一 个 训练 样本 更 新 权重 参数 ,第 二 个 修改 是 增加 
partial_fit 方 法 ， 第 三 个 修改 是 增加 shuffle 方 法 打 乱 训练 集 顺 友 。 


from numpy.random import seed 


class AdalineSGD(object): 
"""ADAptive LInear NEuron classifier. 


Parameters 
eta: float 

Learning rate (between 0.0 and 1.0) 
n iter: int 

Passes over the training dataset. 


Attributes 
w : d1d-array 
Weights after fitting. 
errors : list 
Number of misclassification in every epoch. 
shuffle: bool (default: True) 
Shuffles training data every epoch 
if True to prevent cycles. 
random state: int (default: None) 
Set random state for shuffling 
and initializing the weights. 


def _ init (self, eta-0.01, n iter-10, shuffle-True, random state-zNone): 
self.eta - eta 
self.n iter - n iter 
self.w initialized - False 
self.shuffle - shuffle 
if random state: 
seed(random state) 


def fit(self, X, y): 
"""Fit training data. 


Parameters 
X: {array-like}, shape-[n samples, n features] 
y: array-like, shape-[n samples] 


Returns 


self: object 
self. initialize weights(X.shape[1]) 
self.cost = [] 
for i in range(self.n iter): 
if self.shuffle: 
X, y = self. shuffle(X, y) 
cost - [] 
for xi, target in zip(X, y): 
cost.append(self. update weights(xi, target)) 


avg cost = sum(cost)/len(y) 
self.cost .append(avg cost) 
return self 


def partial fit(self, X, y): 

"""Fit training data without reinitializing the weights.""" 
if not self.w initialized: 

self. initialize weights(X.shape[1]) 
if y.ravel().shape[0] » 1: 

for xi, target in zip(X, y): 

self. update weights(xi, target) 

else: 

self. update weights(X, y) 
return self 


def shuffle(self, X, y): 
"""Shuffle training data""" 
r = np.random.permutation(len(y) ) 


return X[r], y[r] 


def initialize weights(self, m): 
"""Initialize weights to zeros""" 
self.w = np.zeros(1 + m) 
self.w initialized - True 


def update weights(self, xi, target): 
"""Apply Adaline learning rule to update the weights""" 
output - self.net input(xi) 
error = (target - output) 
self.w [1:] += self.eta * xi.dot(error) 
self.w [0] += self.eta * error 
cost = 0.5 * error ** 2 


return cost 


def net input(self, X): 
"""Calculate net Input "" 
return np.dot(X, self.w [1:]) + self.w [0] 


def activation(self, X): 
"""Compute linear activation""" 
return self.net input(X) 


def predict(self, X): 


"""Return class label after unit step""" 
return np.where(self.activation(X) »- 0.0, 1, -1) 


_shuffle 方 法 的 工作 方式 : 38 I numpy.random ¥ 9 permutation $ 244 $10-100 4) — 4» Ek du 
列 ， 然 后 这 个 徐 列 作 为 特征 矩阵 和 类 别 向 量 的 下 标 ， 就 起 到 了 shuffle 的 功能 。 


我 们 使 用 供 方 法 训练 AdalineSGD 模 型 ， 使 用 plot decision regions 对 训练 结果 画图 : 


大 规模 机 器 学 习 和 随机 梯度 下 降 


In [21]: ada = AdalineSGD(n iter=15, etaS.01, random state-l) 
ada.fit(X std, vy) 


Out[21]: < main .AdalineSGD at Üüxc3bcT8O? 


In [23]: plot decision region(® std, vy, classifier=ada! 
plt. titlet Adaline — Stochastic Gradient Descent’) 
plt. xlabel(’ sepal length [standardized]’ } 
plt. ylabel (’ petal length [standardized]’ } 
plt. legend(loc = ‘upper left’) 
plt. show() 
plt.plottranze tl, lenfada.cost_} +1), ada.cost , marker= o’) 
plt.xlabeli Epochs’ | 
plt. ylabel (’ Average Cost’ } 
plt. show () 


Adaline - Stochastic Gradient Descent 
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我 们 可 以 发 现 ， 平 均 损失 (average cost) 下 降 的 非常 快 ， 在 第 15 次 迭代 后 决 
用 


降 的 Adaline 决 策 界 非常 相似 。 如 果 我 们 要 在 在 线 环境 下 更 新 模型 参数 ， 通 i 


法 即 可 ， 此 时 参数 是 一 个 训练 样本 ， 比 如 ada.partial fit(X std[O, :], y[0])。 
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o 使 用 Python 实现 感知 机 算法 

o 基于 |ris 数 据 集 训练 感知 机 模型 
自 适 应 线性 神经 元 及 收敛 问题 
Python 实现 自 适应 线性 神经 元 
大 规模 机 器 学 习 和 随机 梯度 下 降 
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o 支持 向 量 机 
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o 使 用 核 SVM 解 决 非 线性 问题 
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第 四 章 构建 一 个 好 的 训练 集 --- 数 据 预 处 理 


o 处 理 缺 失 值 

o 消除 带 有 缺失 值 的 特征 或 样本 
o 改写 缺失 值 

o 理解 sklearn 中 estimator 的 API 

o 处 理 分 类 数据 

o 将 数据 集 分 割 为 训练 集 和 测试 集 
统一 特征 取 值 学 
选择 有 意义 的 特征 

利用 随机 森林 评估 特征 重要 性 


O 


O 


O 
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o PCA 进 行 无 监督 降 维 

o 聊 一 聊 方差 

o 特征 转换 

LDA 进 行 监督 数据 压缩 

原始 数据 映射 到 新 特征 空间 
o 使 用 核 PCA 进 行 非 线 性 映射 
o 用 Python 实 现 核 PCA 

o 映射 新 的 数据 点 


o sklearn 中 的 核 PCA 
O 学 2l 


总 结 
e 第 六 章 模型 评估 和 调 参 
o 通过 管道 创建 工作 流 
o K 折 交叉 验证 评估 模型 性 能 
o 使 用 学 习 曲 线 和 验证 曲线 调试 算法 
o 通过 网 格 搜索 调 参 
o 通过 髓 套 交 又 验证 选择 算法 
o 不 同 的 性 能 评价 指标 
e Gt 集成 学 
o 集成 学 
o 结合 不 同 的 分 类 算法 进行 投票 
e 第 八 章 深度 学 习 之 PyTorch 
o 60 分 钟 上 手 PyTorch 
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第 三 章 使 用 Scikit-learn 进 行 分 类 器 之 旅 


本 章 我 们 将 要 学 习 学 术 界 和 工业 界 常 用 的 几 种 机 器 学 习 算 法 。 在 学 习 算 法 之 间 差 异 的 同时 ， 
我 们 也 要 了 解 每 个 算法 的 优 缺 点 。 我 们 不 会 像 上 一 章 亲 自 实现 各 个 算法 ， 而 是 直接 调用 易 用 
的 Scikit-learn 库 。 


本 章 涉及 到 的 知识 点 包括 : 


e 介绍 常用 分 类 算法 的 概念 
e 学 习 使 用 scikit-learn 
e 如 何 选 择机 器 学 习 算 法 


如 何 选 择 合适 的 分 类 器 由 法 


对 于 一 个 具体 的 分 类 问题 ， 如 何 选择 合适 的 分 类 器 章法 绝 非 纸 上 谈 兵 就 能 确定 的 : 每 一 个 算 
法 都 有 其 独特 的 数据 偏好 和 假设 。 ie 强调 "No Free Lunch" E £ : 在 所 有 场景 下 都 最 厉害 
的 分 类 疾 是 不 和 存在 满 。 实 际 上 ， 第 用 的 做 法 就 是 多 选择 几 个 分 类 器 试 试 ， 然 后 挑选 效果 了 最 好 
的 那 一 个 。 对 于 同一 个 问题 ， 样 本 数 的 不 同 、 特 征 数 目的 多 少 、 数 据 集 中 的 噪音 和 数据 是 否 
线性 可 分 都 会 影响 到 分 类 器 的 效果 。 


最 终 ， 分 类 器 的 性 能 、 计 算 能 力 和 预测 能 力 ， 都 极 大 依赖 训练 集 。 我 们 概况 一 下 训练 一 个 机 
器 学 习 算法 通常 的 5 大 步骤 


本 书 的 内 容 贯 穿 上 面 的 5 大 步骤 ， 不 要 心急 ， 本 章 重 点 关注 常用 算法 的 重要 概念 ， 至 于 特征 选 
择 、 预 处 理 、 评 价 指标 和 如 何 调 参 将 在 后 面 章节 一 一 介绍 。 


scikit-learnZ 7K 


在 第 二 草 ， 你 学 习 了 两 个 分 类 相关 的 算法 : 感知 机 和 Adaline， 并 且 都 用 Python 进行 了 o 
现在 我 们 学 习 Scikit-learn 的 API， 这 个 库 不 但 用 户 界 面 友 好 并 且 对 第 用 算法 的 实现 进 

优化 。 此 外 ， 它 还 包含 数据 预 处 理 和 调 参 和 模型 评估 的 很 多 方法 ， 是 Python 进行 数 DN HE 89 
必 备 工具 。 


通过 scikit-learn 训 练 感知 机 模型 


我 们 先 看 一 下 如 何 使 用 sklearn 训 练 一 个 感知 机 模型 ， 数 据 集 还 是 用 我 们 熟悉 LUE 由 
于 sklearn 已 经 内 置 了 Iris 数据 集 ， 所 以 本 章 所 有 的 分 类 算法 我 们 通通 使 用 Iris 数据 集 ， 还 是 和 第 
二 和 草 一 样 ， 为 了 可 视 化 方便 ， 我 们 只 使 用 其 中 两 维度 特征 ， 样 本 数 则 使 用 三 个 类 别 全 部 的 150 
个 样本 。 


In [1]: "matplotlib inline 
import numpy as np 
from sklearn import datasets 


In [2]: iris = datagets. load iris) 
f= aera datas ee dl] 


Y = iris. target 


In [3]: np. unique ly! 


Out[3]: array([0, 1, 2]) 


为 了 评估 训练 好 的 模型 对 新 数据 的 预测 能 力 ， 我 们 先 把 Iris 训练 集 分 割 为 两 部 分 : 训练 集 和 测 
试 集 。 在 第 5 章 我 们 还 会 讨论 模型 评估 的 更 多 细节 。 


In [4]: from sklearn.cross validation import train test split 
X train, X test, y train, y test = train test split/X, y, test size-O.23, random state=)) 


通过 调用 train tset split 方法 我 们 将 数据 集 随 机 分 为 两 部 分 ， 测 试 集 点 30%(45 个 样本 )， 训 练 
集 占 70%(105 个 样本 ) ° 


许多 机 器 学 习 和 优化 算法 都 要 求 对 特征 进行 缩放 操作 ， 回 忆 第 二 章 中 梯度 下 降 的 例子 ， 当 时 
我 们 自己 实现 了 标准 化 代码 ， 现 在 我 们 可 以 直接 调用 sklearn 中 的 StandardScaler 来 对 特征 进 
AT AR AENG : 


In [5]: from sklearn. preprocessing import StandardScaler 
sc = StandardScaler(] 
sc. fit [X train) 
X train std = sc. transform(X% train! 
X test std = sc. transformiX test) 


上 面 的 代码 中 我 们 先 从 preprocessing 模 块 中 读 取 StandardScaler 类 ， 然 后 得 到 一 个 初始 化 的 
StandardScaler 新 对 象 Sc， 使 用 代 方 法 ，StandardScaler 对 训练 集中 每 一 维度 特征 计算 出 tr( 样 
本 平均 值 ) 和 _ (标准 差 )， 然 后 调用 transform 方 法 对 数据 集 进行 标准 化 。 注 意 我 们 用 相同 的 标 
准 化 参数 对 待 训练 集 和 测试 集 。 


对 数据 标准 化 以 后 ， 我 们 可 以 训练 一 个 感知 机 模型 。sklearn 中 大 多 数 算法 都 支持 多 类 别 分 
类 ， 上 默认 使 用 One-vs.-Rest 方 式 实现 。 所 以 我 们 可 以 ee 的 感知 机 模型 - 


In [T]: from sklearn.linear model import Perceptron 
In [8]: ppn = Perceptronin iter=40, etaQS0.1, random state) 


In [8]: ppn.fit/X train std, y train. 


Out[8]: Perceptron(alphas0.0001, class weisht-None, etaQ0S0.1, fit intercept-Trus, 
n iter=40, n jobs-l, penalty=None, random state-!, shuttle=True, 
verbose-, warm start-Falsze| 


sklearn 中 训练 模型 的 接口 和 我 们 在 第 二 章 实 现 的 一 样 耶 ， 从 linear model 2! 1% RPerceptron 
类 ， 然 后 初始 化 得 到 ppn， 接 着 使 用 f 信 方法 训练 一 个 模型 。 这 里 的 eta0 就 是 第 二 章 中 的 学 习 率 
eta * n iter 同 样 表 示 对 训练 集 迭 代 的 次 数 。 我 们 设置 random state 参 数 使 得 shuffle 结 果 可 再 
现 。 


训练 好 感知 机 模型 后 ， 我 们 可 以 使 用 predict 方 法 进行 预测 了 : 


In [10]: w pred = ppn.predict/X test std) 


In [11]: print( Misclassified samples: Wd 和 (y test !— y pred). sumt) ) 


Misclassified samples: 4 


对 于 测试 集中 45 个 样本 ， 有 4 个 样本 被 错 分 类 了 ， 因 此 ， 错 分 类 率 是 0.089。 除 了 使 用 错 分 类 
卒 ， 我 们 也 可 以 使 用 分 类 准确 府 (accuracy) 评 价 模 型 ，accuracy=1-miscassification error = 1- 
0.089=0.911 ° 


Sklearn 中 包含 了 许多 评价 指标 ， 这 些 指 标 都 位 于 metrics 模 块 ， 比 如 ， 我 们 可 以 计算 分 类 准确 


In [20]: from sklearn.metrics import accuracy score 


In [21]: print Accuracy: 5.2f' G accuracy scorely test, v pred) ) 


Accuracy: 0.91 


Notes 本 章 我 们 评估 模型 性 能 的 好 坏 仅 仅 依赖 于 其 在 测试 集 的 表现 。 在 第 5 草 ， 你 将 会 学 习 许 
多 其 他 的 技巧 来 评估 模型 ， 包 括 可 视 化 分 析 来 检测 和 预防 过 拟 合 (overfitting)。 过 拟 合 意味 着 
模型 对 训练 集中 的 模式 捕 提 的 很 好 ， 但 是 其 泛 化 能 力 却 很 差 。 


> 我们 使 用 第 二 章 的 plot_decision_regions 画 出 分 界 区 域 。 不 过 在 使 用 之 间 ， 我 们 进 
点 小 修改 ， 我 们 用 圆圈 表示 测试 集 样本 : 


from matplotlib.colors import ListedColormap 
import matplotlib.pyplot as plt 


def plot decision regions(X, y, classifier, test idx-None, resolution=0.02): 
4 setup marker generator and color map 
markers = ('s', 'x', ‘o', '^', 'v!) 
colors - ('red', 'blue', 'lightgreen', 'gray', 'cyan') 
cmap = ListedColormap(colors[:len(np.unique(y))]) 


# plot the decision surface 

x1 min, x1 max = X[:, O].min() - 1, X[:, O].max() + 1 

x2 min, x2 max = X[:, 1].min() - 1, X[:, 1].max() + 1 

XX1, Xx2 = np.meshgrid(np.arange(x1 min, xi max, resolution), 
np.arange(x2 min, x2 max, resolution)) 

Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T) 


Z = Z.reshape(xx1.shape) 

plt.contourf(xx1, xx2, Z, slpha=0.4, cmap=cmap) 
plt.xlim(xxi.min(), xxi.max()) 
plt.ylim(xx2.min(), xx2.max()) 


4 plot all samples 
X test, y test - X[test idx, :], y[test idx] 
for idx, cl in enumerate(np.unique(y)): 
plt.scatter(x=X[y == cl, 0], yzX[y == cl, 1], 
alpha=0.8, c=cmap(idx), 
marker=markers[idx], label-cl) 


# highlight test samples 
if test_idx: 
X test, y test = X[test idx, :], y[test idx] 
plt.scatter(X test[:, 0], X test[:, 1], c='', 
alpha-1.0, linewidth=1, marker='o', 
s=55, label='test set') 


经 过 上 面 的 修改 ， 现 在 可 以 区 分 训练 集 和 测试 集 ， 运 行 如 下 代码 : 


In [232]: X combined std = np.vstack((X train std, X test std)) 
In [23]: x combined = np.hstackíiy train, Y test)) 


In [36]: plot decision rezionsiX-X combined std, 
y—y combined, 
classifier-ppn, 
test _idx=range (105, 150)) 
plt. xlabel(’ petal length [standardized]’ } 
plt. ylabel(’ petal width [standardized]’ } 
plt.lezendíloc- upper left’) 
plt. show!) 


对 结果 可 视 化 后 ， 我 们 可 以 发 现 三 个 类 别 的 花 不 能 被 线性 决策 界 完 美 分 类 : 


gg Ü 


xXx ] 
Gp 7? 
OOo test set 


petal width [standardized] 





—2 -1 D 1 2 
petal length [standardized] 


ER -ZRMK ^ ROM T 8695 AE] DBE o AKAT AGE c^ xat 
么 我 们 不 推荐 大 家 实际 使 用 感知 机 的 原因 。 在 接 下 来 的 草 节 ， 我 们 将 学 习 到 其 他 线性 分 类 
器 ， 即 使 数据 不 能 完美 线性 分 类 ， 也 能 收敛 到 最 小 的 损失 值 。 


3f FET ar p Ja p FR Hl] LARA 


感知 机 算法 为 我 们 学 习 机 器 学 习 分 类 问题 曾经 立 下 汗马功劳 ， 但 由 于 其 致命 缺点 : 如 果 数 据 
不 能 完全 线性 分 逢 ， 则 算法 永远 不 会 收敛。 我 们 实际 上 很 少 真 正 使 用 prions o 


接 下 来 我 们 学 习 另 一 个 非常 有 效 的 线性 二 分 类 模型 : BAH HE a (logistic regression) » ix 
意 ， 尽 管 模型 名 字 中 有 “回归 ”的 字眼 ， 但 她 确 是 百 分 百 的 分 类 模型 。 


ay ae Hr ae We) a Fo KPA 


逻辑 斯 蒂 回 归 ( 以 下 简称 逻辑 回归 ) 是 一 个 分 类 模型 ， 它 易于 实现 ， 并 且 对 于 线性 可 分 的 类 别 数 
据 性 能 良好 。 她 是 工业 界 最 常用 的 分 类 模型 之 一 。 和 感知 机 和 Adaline 相 似 ， 本 章 的 记 辑 回归 
模型 也 是 用 于 二 分 类 的 线性 模型 ， 当 然 可 以 使 用 OVR 技 巧 扩展 为 多 分 类 模型 。 


逻辑 回归 作为 一 个 概率 模型 ， 为 了 解释 其 背后 的 原理 ， 我 们 先 介 绍 一 个 概念 : JU (odds 
ratio)= ,其 中 p 表 示 样 本 为 正 例 的 概 举 。 这 里 如 何 划分 正 例 、 负 例 要 根据 我 们 想 要 预测 什 
么 ， 比 如 ， 我 们 要 预测 一 个 病人 有 东 种 疾病 的 概 府 ， 则 病人 有 此 疾病 为 正 例 。 数 学 上 ， 正 例 
表示 类 别 y=1。 有 了 几率 的 概念 ， 我 们 可 以 定义 对 数 几 率 函 数 (logit function, 这 里 log odds 简 称 
logit) : 

寺 数 几率 函数 的 自 变 量 p 取 值 范围 [0,1], 因 变量 值 域 为 实数 域 ， 将 上 和 式 中 的 p 视 为 类 后 验 概 浴 估 
cent ahs na A: 


logit ( p(y=1| x))= = WX, + WX, FW OX = > w x, =W xX 


=U 


KARE RAT AS HY XR AERE A TRG ORE > VE eM ALE BAY RBH RARA 3 
#4 M JA h A (logistic function) > A & fal 5 A sigmoid Až > i Zi ELE SU : 


] 
1 十 e 


6(2)= 


其 中 z 是 网 络 输入 ， 即 权重 参数 和 特征 的 线性 组 合 


z—uawlir- Up T UH +... T UU o 


sigmoid(S 曲 线 ) 函 数 很 重要 ， 我 们 不 妨 画图 看 一 看 : 


In 


Ree 


import matplotlib.pyplot as plt 
import numpy as np 





In [33]: def zizmoidíz): 
return 1.0 / (1.0 + np. expl—z)) 

z = np.arangel—7, 7, 0.1) 
In [34]: phi.z = sigmoid(z) 
In [38]: plt.plotkz，phi_ zj 

plt.axvline (0.0, color= k’) 

plt. axhspan!íD.0, 1.0, facecolor='1.0', alpha=1.0, ls= dotted’) 

plt. axhline (y-0.5, ls- dotted’, color- k') 

plt. yticks((0.0, 0.5, 1.0]) 

plt.ylim(-0.1, 1.1) 

plt.xlabell’ z’) 

plt. wlabelt jiphi (2) $") 

plt. show) 

z 
z 
"VM" 20 xa : " 
RATT AA SM AZA IEG ,无 限 接近 于 1 ; Zz 趋向 负 无 穷 ， 无限 接 近 0. 因 


此 ， 对 于 sigmoid 远 数 ， 其 自 变 量 取 值 范围 为 实数 域 ， 因 变量 值 域 为 [0,1], 并 且 
sigmoid(0)=0.5 ° 


为 了 直观 上 对 逻辑 回归 有 更 好 的 理解 ， 我 们 可 以 和 Adaline 模 型 联系 起 来 ， 二 者 的 唯一 区 别 
是 : Adaline 模 型 ， 激 活 函 数 o AMP > REBRERKT sigmoid HX -< 


da 
- 
/ 

x^ 


AN NEA 


\ 
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Net input sigmoid Quantizer 
function function 
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WU T sigmoid £i 2x 89 4 h ÆA [0,1] > TATA PHS HAR TEI AR > 0o 2E] 
Ri > de plz] — U.8 ,意味 着 此 样本 是 lris-Versicolor 花 的 概率 是 0.8， 是 lris-Setosa 花 的 概 
ge Ply = 二 0|z;w) = 1— Ply = 17;w) = 0.2. 


有 了 样本 的 预测 概率 ， 再 得 到 样本 的 类 别 值 就 很 简单 了 ,和 Adaline 一 样 ， 使 用 单位 阶 跃 函数 : 


|1 ifó(z)2 0.5 


y = 
|0 otherwise 


上 式 等 价 于 : 


A 
| U O th ern "se 
逻辑 回归 之 所 以 应 用 广泛 ， 一 大 优点 就 是 它 不 但 能 预测 类 别 ， 还 能 输出 具体 的 概率 值 ， 概 率 


很 很 多 场景 往往 比 单 纯 的 类 别 值 重要 的 多 。 比 如 在 天 气 预测 中 下 雨 的 可 能 性 ， 病 人 患 病 的 
能 性 等 等 。 


221 


N 


学 习 逻 辑 斯 底 损失 函数 中 的 权重 参数 


对 逻辑 回归 模型 有 了 基本 认识 后 TN 学 习 的 核心 问题 ， 怎 样 学 习 参 数 。 还 记得 上 
— € Adaline 441] x 31 89 AAA DR 


我 们 求解 损失 有 函数 最 小 时 的 权重 参数 ， 同 样 ， 对 于 逮 辑 回归 ， 我 们 也 需要 定义 损失 函数 ， 在 
这 之 前 ， 先 定义 似 然 (likelihood)L 的 概念 ， 假 设 训练 集中 样本 独立 ， 似 然 定义 : 


MTPO. w) =)" Za 


与 损失 部 数 费 尽 全 力 找 最 小 值 相反 ， 对 于 似 然 函数 ， 我 们 要 找 的 是 最 大 值 。 实 际 上 ， 对 于 似 
然 的 log 值 ， 是 很 容 多 找到 最 大 值 的 ， 也 就 是 电大 化 log-likelihood 有 函数 : 


L(w)- P(» 





lI (w)-logL(w )- > iogl4 (2 UE +(1-y" 'Jiog(1-ø(=°)) 


接 下 来 ， 我 们 可 以 运用 梯度 下 降 等 优化 算法 来 求解 最 大 化 log-likelihood 时 的 参数 。 最 大 化 和 最 
小 化 本 质 上 没有 区 别 ， 所 以 我 们 还 是 将 log-likelihood 写 成 来 最 小 值 的 损失 有 函数 形式 : 


eo sf] Hia] 


一] 


为 了 更 好 地 理解 此 损失 函数 ， 假 设 现 在 训练 集 只 有 一 个 样本 : 


J(G(z),yw)=-ylog(¢(z))-(1—y»)log(1-¢(z)) 


上 式 等 号 右边 的 算式 ， 如 果 y=0 则 第 一 项 为 0 ; 如 果 y=1 则 第 二 项 为 0 。 


( "MW _ {=log(9(z)) if y «1 
MI i ip 


下 图 展示 了 一 个 训练 样本 时 ， 不 同时 对 应 的 .Ta 





对 于 蓝 线 ， 如 果 逻 辑 回归 预测 结果 正确 ， 为 1， 则 损失 为 0 ; STARA ^ de IR GE EI Ja TR 
测 正 确 ， 类 别 为 0， 则 损失 为 0。 如 果 预 tik > MAn A IER © 


J M scikit-learn 7] 24 37. 44 ve] ya 7 W 


de AI] E] Co 3: JUGE HEIL Ja RGR AE $9 Adaline P 5945 X BAHAR PP] o 35945 


AA: 
Ese?) jwi-a?) 


不 过 考虑 到 sklearn 中 提供 了 高 度 优 化 过 的 逻辑 回归 实现 ， 同 时 也 支持 多 类 别 分 类 ， 我 们 就 不 
自己 实现 了 ， 而 是 直接 调用 sklearn.linear _model.LogisticRegression， 使 用 标准 化 后 的 lris 数 
据 集 训练 模型 : 


In [T]: from sklearn.linear model import LozisticRezression 


In [8]: lr = Logistickegression(C=1000.0, random state! 
lr.fit!X train std, y_ train) 


Out[BR]: LogisticKegression(C=1000.0, class weight=None, dual=Falzse, 
fit intercept-True, intercept scalinz-l, max_iter=100, 
multi class-'ovr', n jobs-l, penalty- lZ', random state, 
solver- liblinear’, tol-0.0001, verbose, warm start=False) 


In [12]: plat decision regions\¥ combined std, x combined, classifier=lr, test _idx=range (105, 1501) 
plt. xlabel petal length [standardized]']) 
plt.¥label( petal width [standardized]') 
plt.lezend(loc- upper left’) 
plt. show) 


训练 模型 后 ， 我 们 画 出 了 决策 界 ， 


O00 test set 


petal width [standardized] 





—2 -1 0 1 2 
petal length [standardized] 


细心 的 你 一 定 会 问 在 初始 化 LogisticRegression 时 那个 参数 C 是 什么 意思 呀 ? 在 下 一 节 讲 正则 
化 的 时 候 我 们 再 好 好 讨论 讨论 。 


有 了 还 辑 回 归 模 型 ， 我 们 就 可 以 预测 了 ， 如 果 你 想 知 道 输 出 概 尘 ， 调 用 predict _proba 方 法 即 
可 ， 


In [13]: lr.predict probalX test stdl[O, :]) 


c:ipythonZTAlib*asite-packazesMksklearn'utils*validation.py:385: Dep 
aise ValueError in 0.18. Reshape your data either using X.reshapet- 
s a single sample. 

DeprecationWarning! 


Out[13]: array([[ 2.05743774e-11, —86.31620264&-02, —93.3683T7974e-01]]) 


上 面 的 array 表 示 Ir 认 为 测试 样本 属于 Iris-Virginica 类 别 的 概 座 为 93.683%， 属 于 Iris-Versicolor 
By BLE A 6.31696 ° 


不 论 Adaline 还 是 逻辑 回归 ， 使 用 梯度 下 降 算 法 更 新 权重 参数 时 ， 用 到 的 算式 都 一 样 ， o 


我 们 好 好 推导 一 下 这 个 计算 过 程 ， 首 先 计算 log-likelihood 函 数 对 权重 参数 的 偏 导 数 : 


5 ut 1 | o a 
z ad "a -(I Joola ó(z) 


然后 ， 计 算 sigmoid 函 数 的 导数 : 




















ð 1 | Zn | I l 
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= $(z)(1-¢(z)) 


将 上 却 代 入 到 损失 函数 偏 导 数 : 











我 们 的 目标 是 求解 使 log-likelihood 最 大 值 时 的 参数 w， 因 此 ， 对 于 参数 更 新 ， 我 们 按照 : 


VNPT a Whole 
Ww := WwW; + 235 -é(z ))x 
j=l 


由 于 每 次 更 新 权重 时 ， 对 于 所 有 参数 同时 更 新 ， 所 以 可 以 写成 向 量 形式 : 


W= w+ Aw 


我 们 定义 


w -Vl(w) 


由 于 最 大 化 log-likelihood 等 价 于 最 小 化 损失 有 函数 ,7 我们 可 以 将 梯度 下 降 算 法 的 权重 更 新 写作 : 


Aw, - => (¥—4(2) x) 
7 i=] i | 





Ow, 
w= w+ Aw, Aw =—7VJ(w) 


这 和 Adaline 中 的 权重 更 新 算式 完全 相同 。 


使 用 正则 化 解决 过 拟 大 使 用 正则 化 解决 过 拟 状 
使 用 正则 化 解决 过 拟 大 使 用 正则 化 解决 过 拟 合 


ee 学 习 中 很 第 见 的 问题 ， 指 的 是 一 个 模型 在 训练 集 上 表现 很 好 但 是 泛 
能 力 巨 差 (在 测试 集 上 的 表现 糟 粒 )。 如 果 一 个 模型 饱 受过 拟 合 困扰 ， 我 们 也 说 此 模型 方差 过 
， 造 成 这 个 结果 的 原因 可 能 是 模型 含有 太 多 参数 导 BURA 型 过 于 复杂 。 同 样 ， 模 型 也 可 能 遇 
到 欠 拟 合 (underfitting) 问 题 ， 我 们 也 说 此 模型 偏差 过 高 ， 原 因 是 模型 过 于 简单 不 能 学 习 到 训练 
集中 数据 存在 的 模式 ， 同 样 对 于 测试 集 表现 很 差 。 


虽然 到 目前 为 止 我 们 仅 学 习 了 用 于 分 类 任务 的 几 种 线性 模型 ， 过 拟 合 和 欠 拟 合 问 题 可 以 用 一 
个 非 线 性 决策 界 很 好 的 演示 : 


Underfitting “1 Overfitting 21 
(high bias) compromise (high variance) 





AE a Dis yananee 的 平衡 ， 第 用 的 方法 是 正则 化 (regularization)。 正 则 化 是 解决 特征 
共 线 性 、 过 滤 数 据 中 嗓音 和 防止 过 拟 合 的 有 用 方法 。 正 则 化 背后 的 原理 是 引入 额外 的 信息 ( 偏 
ans 过 大 的 权重 参数 。 最 第 见 的 形式 就 是 所 谓 的 L2 正 则 (L2 regularization, 有 时 也 被 称 为 
权重 衰减 ，L2 收 缩 ) : 


2 AT 2 








2w 
2 


此 处 的 就 是 正则 化 系数 。 


Note 正则 化 是 为 什么 特征 缩放 如 此 重要 的 另 一 个 原因 。 为 了 正则 化 起 到 人 作用， 我们 需要 保证 
所 有 的 特征 都 在 可 比较 范围 (Comparable scales) » 


E LA a EAR AoE pT > edo xp Fe HE a 
HEAL > ALOE mom 65 89 48 A HR 


H 


» [- log (o(z^ ) 十 (1 - y") 中 = log(I —@ i )) + - lwl 


i=] 





通过 正则 系数 ,我 们 可 以 控制 在 训练 过 程 中 使 得 参数 也 比较 小 。 _ 值 越 大 ， 正 则 化 威力 越 强 
大 。 


现在 我 们 可 以 解释 LogisticRegression 中 的 参数 C: 


所 以 ， 我 们 可 以 将 逻辑 回归 正则 化 的 损失 有 函数 重 写 为 


109) c 3 (-tes(o(7")) (1-9) (-on(i-o(2?))) SI 


i=l 


如 果 我 们 减 小 C 的 值 ， 也 就 是 增 大 正则 系数 的 值 ， 正 则 化 项 的 威力 也 增强 。 
In [16]: weights, params = [], [] 


In [17]: fox c im np. arange(—5, 5): 
lr = LozisticRezressioniC-lÜ**c, random state-) 
lr. fit train std, y train) 
weights. appendi(lr.coef [1]) 
params. append (1O0**cj 


In [18]: weights = np. array weights) 


In [30]: plt.plot(params, weights[:, 0], 
label= petal lengh’ } 
plt.plot(params, weizhts[:, 1], 
linestyle=’ 一 ,label- petal width’ } 
plt. ylabel ( weight coefficient’ } 
plt.xlabeli Cj 
plt.lezendíloc- upper left’) 
plt.xscale( log’ ) 
plt. show |) 


执行 上 面 的 代码 ， 我 们 训练 了 十 个 带 有 不 同 C 值 的 逻辑 回归 模型 。 


weight coefficient 





ww 107 107 107 1° 10? 10 107 10* 


我 们 可 以 看 到 随 着 C 的 减 小 ， 权 重 系 数 也 减 小 。 


Note 本 章 只 是 简要 介绍 了 逻辑 斯 蒂 回 归 模 型 ， 如 果 你 还 意犹未尽 ， 推 荐 阅读 Logistic 
Regression: From Introductory to Advanced Concepts and Applications, Sage Publications. 


支持 向 量 机 


男 一 个 经 常 使 用 的 机 器 学 习 算 法 是 支持 向 量 机 (support vector machine, SVM)，SVM 可 以 看 

做 是 感知 机 的 扩展 。 在 感知 机 算法 中 ， 我 们 最 小 化 错误 分 类 误差 。 在 SVM 中 ， 我 们 的 优化 目 

标 是 最 大 化 间隔 (margin)。 间 隔 定 义 为 两 个 分 隔 超 平面 (决策 界 ) 的 距离 ， 那 些 最 靠近 超 平面 的 
训练 样本 也 被 称 为 支持 向 量 (suppor vectors)。 可 以 看 下 图 : 


Support vectors 


Decision boundary 
w'x=0 


“positive” 
hyperplane 
w'x=1 


“negative” 
hyperplane 
w'x=-1 
X, 
u | | SVM: 
Which hyperplane? Maximize the margin 





we ` — 
wm K 1b Ja] BA 
最 大 化 决策 界 的 间隔 ， 这 义 做 的 原因 是 间隔 大 的 决策 界 趋向 于 含有 更 小 的 泛 化 误差 ， 而 间隔 


小 的 决策 界 更 容易 过 拟 合 。 为 了 更 好 地 理解 间隔 最 大 化 ， 我 们 先 认 识 一 下 那些 和 决策 界 平行 
的 正 超 平 面 和 负 超 平面 ， 他 们 可 以 表示 为 : 


W 十 wx pos = | ( ] ) 


用 (1) 减 去 (2)， 得 到 : 


_ s a | 1.5 
(nx. 


对 上 式 进 行 归 一 化 ， 





上 式 等 号 左边 可 以 解释 为 正 超 平面 和 负 超 平面 之 间 的 距离 ， 也 就 是 所 谓 的 间隔 。 


现在 SVM 的 目标 函数 变 成 了 最 大 化 间隔 ,限制 条 件 是 样本 被 正确 分 类 ， 可 以 写成 : 
W 十 wx) >] if y” =] 


m +w xÀ «—1 if y =-1 


上 面 两 个 限制 条 件 说 的 是 所 有 负 样 本 要 落 在 负 超 平面 那 一 侧 ， 所 有 正 样本 要 落 在 正 超 平 面 那 
侧 。 o 我们 用 ği fal ; 洁 的 58 法 代替 : 。 


y (w, tw? x? ) 21 v, 


实际 上 ， 使 用 二 次 规划 (quadratic programming) 最 小 化 ”很 容易 ， 但 是 二 次 规划 显然 超出 了 
本 书 的 内 容 ， 如 果 你 对 SVM 感 兴趣 ， 推 荐 阅读 Vladimir Vapnik 写 的 The Nature of Statistical 
Learning Theory, Springer Science&Business Media 或 Chris J.C. Burges 写 很 棒 的 解释 A 
Tutorial on Support Vector Machines for Pattern Recognition. 


使 用 松弛 变量 解决 非 线 性 可 分 的 情况 


虽然 我 们 不 想 深 控 SVM 背 后 的 数学 概念 ， 但 还 是 有 必要 简短 介绍 一 下 松弛 变量 (slack variable) 
, 它 是 由 Vladimir Vapnik 在 1995 年 引入 的 ， 借 此 提出 了 软 间 隔 分 类 margin)。 引 入 松弛 


变量 的 动机 是 原来 的 线性 限制 条 件 在 面 对 非 线 性 可 分 数据 时 需要 松弛 ， 这 样 才 能 保证 算法 收 


No 


松弛 变量 值 为 正 ， 添 加 到 线性 限制 条 件 即 可 : 


we if y" = -£9 


wx) « if y -fa el’) 


aay E tx Hae ERT: 


l 2 e. 
Hw «c( Se! 


WA EC o ALT VA EAE AR GETS oo iEHADEuJyTE:3xECAAAcGHTA4AX 
的 惩罚 越 大 。 可 以 通过 C 控 制 间隔 的 宽度 ， 在 bias-variance 之 间 找 到 某 种 平衡 : 





N 


Large value for Small value for 
parameter C parameter C 





这 个 概念 和 正则 化 相关 ， 如 果 增 大 C 的 值 会 增加 bias 而 减 小 模型 的 方差 。 


我 们 已 经 学 会 了 线性 SVM 的 基本 概念 ， 下 面 使 用 sklearn 训 练 一 个 模型 : 


In [10]: from sklearn.svm import SVC 
In [11]: sym = SWCikernel- linear’, C=1.0, random state-) 


In [12]: szwm.fiti(X train std, y train 


Out[12]: SWCiC-1.0, cache size=200, class weight=None, coef0=0.0, 
decision function shape-None, degree=3, gamma™ auto’, kernel- linear’, 
max iter=-l, probability=False, random state, shrinking=True, 
tol=0.001, verbose=False) 


In [13]: plot decision regions (¥ combined std, y combined, classifier=syn, 
test_idx=range (105, 150) ) 
plt. xlabel(’ petal length [standardized]’ } 
plt. ylabel (’ petal width [standardized]’} 
plt. legend(loc= upper left’) 
plt. show () 






looo test set 


petal width [standardized] 
c3 


— 


—2 -1 0 1 2 
petal length [standardized] 


Note 3 4424 že l)a VS SVM 


dE RIA HL Sc 85 DY XE ep Rp AVEEGE MG He E gae BES V MGS Fh BOR UW o F a B d 

大 化 训练 集 的 条 件 似 然 ,使 得 她 更 昂 受 奇异 值 影响 。 SVMA X SS ARR RUN ARP o x 
持 向 量 )。 另 一 方面 ， 膛 辑 斯 带 回 归 的 优点 是 易于 实现 ， 特 别 是 并 行 化 实现 。 此 外 ， 面 对 流 式 

数据 ， 他 辑 斯 蒂 回 归 的 易于 更 新 的 特点 也 很 明显 。 


scikit-learn 中 不 同 的 实现 方式 


前 面 我 们 用 到 的 sklearn 中 的 Perceptron 和 LogisticRegression 类 的 实现 都 使 用 了 LIBLINEAR 
库 ，LIBLINEAR 有 是 由 国立 台湾 大 学 开发 的 一 个 高 度 优 化 过 的 C/C++ 库 。 同 样 ，sklearn 中 的 
SVC 类 利用 了 国立 台湾 大 学 开发 的 LIBSVM 库 。 


AR Python 自 己 实现 的 优点 是 训练 模型 速度 很 快 ， 毕 竞 是 优化 
过 的 代码 。 可 是 ， 有 时 候 数据 集 很 大 ， 不 能 一 次 读 入 内 存 ， 针 对 这 个 问题 ，sklearn 也 实现 了 
SGDClassifier 类 ， 使 用 提供 的 partial fit 方 法 能 够 支持 在 线 学 习 。SGDClassifier 利 用 随机 梯度 


下 降 算 法 学 
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[3] : 
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from sklearn. linear model import 5GDClassifier 


ppn = SGDClassifier tloss= perceptron ] 


lr = 5GDClassifier (loss= log’ ) 


sym=SGDC lassifier (loss= hinge’ | 


ae 


^ 


= 


apud 


使 用 核 SVM 解 决 非 线 性 


SVM 之 所 以 受 欢 迎 度 这 么 高 ， 另 一 个 重要 的 原因 是 它 很 容易 核 化 (kernelized)， 能 够 解决 非 线 
性 分 类 问题 。 在 讨论 核 SVM 细节 之 前 ， 我 们 先 自己 创造 一 个 非 线性 数据 集 ， 看 看 他 长 什么 样 
as 


使 用 下 面 的 代码 ， 我 们 将 创造 一 个 简单 的 数据 集 ， 其 中 100 个 样本 是 正 类 ，100 个 样本 是 负 


类 。 


In [10]: np.random. seedin) 

In [11]: X xor = np. random. randn (200, 2) 

In [12]: y_ xor = np.lozical xor(X xor[:, 0] > 0, X xorl:, 1] > à) 
In [13]: y xor = np.where(y xor, 1, —1) 


In [16]: plt.scatter(X xor[y xor = 1, 0], X xorly xor =l, 1], 
c= b, marker- x', label-'1'] 
plt. scatter (R xor[y xor 一 -1, 0], X xor[y xor—-1, 1], 
c= r, marker- s', label” -1') 
plt. ylim(—3. 0) 
plt. legendi) 
plt. showt] 
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线性 SVM 都 鞭 长 莫 及 。 


核 方 法 的 jidea 是 为 了 解决 线性 不 可 分 数据 ， 在 原来 特征 基础 上 创造 出 非 线 性 的 组 合 ， 然 后 利用 
映射 函数 ”将 现 有 特征 维度 映射 到 更 高 维 的 特征 空间 ， 并 且 这 个 高 维度 特征 空间 能 够 使 得 原 
来 线性 不 可 分 数据 变 成 了 线性 可 分 的 。 


举 个 例子 ， 下 图 中 ， 我 们 将 两 维 的 数据 映射 到 三 位 特征 空间 ， 数 据 集 也 有 线性 不 可 分 变 成 了 
线性 可 分 ， 使 用 的 映射 为 : 


» E E 


注意 看 右上 角子 图 到 右 下 角子 图 的 转变 


变 ， 高 维 空间 中 的 线性 决策 界 实 际 上 是 低 维 空间 的 非 线 
性 决策 界 ， 这 个 非 线性 决策 界 是 线性 分 类 器 


找 不 到 的 ， 而 核 方 法 找到 了 


—_ -0.5 


- 
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使 用 核 技 巧 在 高 维 空间 找到 可 分 超 平面 


使 用 SVM 解 决 非 线 性 问题 ， 我 们 通过 映射 函数 ”将 训练 集 映 射 到 高 维特 征 空间 ， 然 后 训练 一 
个 线性 SVM 模型 在 新 特征 空间 将 数据 分 类 。 然 后 ， 我 们 可 以 使 用 相同 的 映射 函数 对 测试 集 数 
据 分 类 。 


上 面 的 想法 很 不 错 ， 但 是 如 何 构建 新 特征 是 非常 Hw 尤其 是 数据 本 身 就 是 高 维 数据 时 。 


因此 ， 我 们 就 要 介 Mn 了 。 由 于 我 们 不 会 过 多 涉及 在 训练 SVM 时 如 何 来 解 二 次 规划 问 
题 ， 你 只 需要 知道 替换 TUTTU 就 可 以 了 。 为 了 免 去 两 个 点 的 点 乘 计 算 ， 我 们 定义 所 谓 


iru k o(x) g(x), 


第 用 的 一 个 核 函 数 是 Radial Basis Function kernel(RBF 核 )， 也 称 为 高 斯 核 : 


的 核 函 数 (kernel function): 





| " - 
k x. x = exp -y x" S x) 


此 处 ，| QR PRCA BRAK 


通俗 地 讲 ， 核 (kernel) 可 以 被 解释 为 两 个 样本 之 间 的 相似 形 遂 高 斯 核 中 e 的 指数 范围 <=0， 
因此 高 斯 核 值 域 范 围 _ ,特别 地 ， 当 两 个 样本 完全 一 样 时 ， 值 为 1， 两 个 样本 完全 不 同时 ， 值 
为 0. 
有 了 核 函 数 的 概念 ， 我 们 就 动手 训练 一 个 核 SVM， 看 看 是 否 能 够 对 线性 不 可 分 数据 集 正 确 分 
AX : 


In [13]: avm = SWCikernel- rbf', random state-O, zamma-1.0, C-10.0] 


In [1i]: zwm.fitiX xor, v xor) 


Out[14]: SWCiC-10.0, cache size=200, class weight=None, coef0=0.0, 
decision function shape-None, degree=3, gamma=l.0, kernel- rbt’, 
max iter=-l, probability=False, random state, shrinkinz-True, 
tol-0.001, verbose=False) 


In [15]: plot decision regzionsiX xor, v xor, classifier=svm) 
plt.lezendíloc- upper left’) 
plt. show i) 


结果 如 下 ， 可 以 发 现 核 SVM 在 XOR 数 据 集 上 表现 相当 不 错 : 





其 中 参数 gamma 可 以 被 理解 为 高 斯 球面 的 阶段 参数 ， 如 果 我 们 增 大 gamma 值 ， 会 产生 更 加 柔 
软 的 决策 界 。 为 了 更 好 地 理解 gamma 参 数 ， 我 们 在 Iris 数据 集 上 应 用 RBF 核 SVM : 


In [18]: sym = SWCikernel- rbf', random state-), szamma-c).2, C=1. 0) 


In [17]: swvm.fitiX train std, y train) 


Out[l7]: SWC(C-1.0, cache size=200, class weight=None, coef0=0.0, 
decision function zhape-None, degree=J, zamma-c.2, kernel” rbf', 
max iter--l, probability-False, random state, shrinking=True, 
tol=0.001, verbose=Falze) 


In [22]: plot decision regions (X combined std, x combined, classifier=svm, test idx-ranze(lO5, 150)) 
plt. xlabelt petal length [standardized] ] 
plt. ylabel( petal width [standardized]’ | 
plt.legendíloc- upper left’) 
plt. showt) 


我 们 选择 的 gamma 值 相对 比较 小 ， 所 以 决策 界 比较 Soft : 


test set 


petal width [standardized] 





—2 -1 0 1 2 
petal length [standardized] 


现在 我 们 增 大 gamma 值 ， 然 后 观察 决策 咱 


使 用 核 SVM 解 决 非 线性 问题 


In [23]: sym = SWCikernel- rbf', random state-), zamma=100, C=1. 0) 


In [24]: swm.fitlX train std, y train! 


Out[24]: SWC(C-1.0, cache size=200, class weizht-Mone, coefû=0. 0, 
decision function shape-Mone, dezree-3, gamma=100, kernel-'rbf', 
max iter--l, probability-False, random state], shrinking=True, 
tol=0.001, verbose=False) 


In [25]: plot decision regions ti combined std, y combined, classifier-svm, test idx=range(105, 150)) 
plt. xlabel(’ petal length [standardized]’ | 
plt. ylabel ( petal width [standardized]') 
plt.lezendíloc- upper left’) 
plt. show!) 


test set 


petal width [standardized] 





—2 -1 0 1 2 
petal length [standardized] 


虽然 gamma 值 较 大 的 模型 对 训练 集 分 类 效果 很 大 ， 但 其 泛 化 能 力 一 般 很 差 ， 所 以 选择 适当 的 


gamma 值 有 助 于 避免 过 拟 合 。 
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如 果 我 们 在 意 模 型 的 可 解释 性 ， 那 么 决策 树 (decision tree) 分 类 器 绝对 是 上 佳 的 选择 。 如 同名 
字 的 字面 意思 ， 我 们 可 以 把 决策 树 理解 为 基于 一 系列 问题 对 数据 做 出 的 分 割 选择 。 


举 一 个 简单 的 例子 ， 我 们 使 用 决策 树 来 决定 某 一 天 的 活动 : 


Work to do? 


Yes No 


Sunny 





T 
Over- -— 
cast 


Yes | 





基于 训练 集中 的 特征 ， 决 策 树 模 型 提出 了 一 系列 问题 来 推测 样本 的 类 别 。 虽 然 上 图 中 做 出 的 
每 个 决策 都 是 根据 离散 变量 ， 但 也 可 以 用 于 连续 型 变量 ， 比 如 ， 对 于 Iris 中 sepal width 这 一 取 
值 为 实数 的 特征 ， 我 们 可 以 问 “sepal width 是 否 大 于 2.8cm ?” 


训练 决策 树 模 型 时 ， 我 们 从 根 节点 出 发 ， 使 用 信息 增益 (information gain, IG) 最 大 的 特征 对 数 
据 分 割 。 然 后 迭代 此 过 程 。 显 然 ， 决 果树 的 生成 是 一 个 递归 过 程 ， 在 决策 树 基 本 算法 中 ， 有 

三 种 情形 会 导致 递归 返回 : (1) 当前 节点 包含 的 样本 全 属于 同一 类 别 ， 无 需 划 分 ; (2) 当前 
属性 集 为 空 ， 或 是 所 有 样本 在 所 有 属性 上 取 值 相同 ， 无 法 划分 ; (3) 当前 节点 包含 的 样本 集 


合 为 空 ， 不 能 划分 。 


每 一 个 节点 的 样本 都 属于 同一 个 类 ， 同 时 这 也 可 能 导致 树 的 深度 很 大 ， 节 点 很 多 ， 很 容易 引 
起 过 拟 合 。 因 此 ， 剪 枝 操作 是 必 不 可 少 的 ， 来 控制 树 深度 。 


决策 树 学 习 
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为 了 使 用 最 大 信息 增益 的 特征 分 割 数据 ， 我 们 需要 定义 一 个 在 决策 树 学 习 过 程 中 的 目标 函 
次 分 割 时 最 大 化 信息 增益 ， 我 们 定义 如 下 : 


数 。 此 处 ， 我 们 的 目标 函数 是 在 每 一 


(o, 1)-1o)-ESao) 


点 的 数据 案 ，| 是 东 种 度 








中 ，f 是 具体 的 特征 ， 岂 pi 是 当前 数据 集 和 用 特征 f 分 割 后 第 j 个 子 节 ， 
量 usd ade RH AAR IEEE S T TAM ea area 为 了 简化 和 减 小 搜索 
空间 ， 大 多 数 决策 树 ( 包 括 sklearn) 都 是 用 二 又 树 实现 的 。 这 意味 着 每 一 个 父 节点 被 分 割 为 两 个 
子 节 点 ， Di, tD right: 

| r 
1 = = | right 
IG | D, a) xm: (D, | N (Dies | N D i | 
p p 


常用 的 度量 | 包括 基尼 指数 (Gini index, Ja) ` (Entropy, Ju )yfe > X 44 iX (classification error, TE 
) e AAT LI AA : 


=—)_P(i|t)log, p(ilt) 
iz] 

st te PU 4 6 EAP ALY TERI oM BER Re o PERE A AP PAE AA BF RI 

AS MADO? ke RAE AMY CIS IJA MÄRK o ode o ARLE d 

(is |t) 13&p(i-0|t)eO > 948250. E] J6 > Af SL UD E BO OR KIR 24S A. 


Oo 


TR AED : 


基尼 系数 可 以 被 理解 为 最 小 化 


‘6 (=> plils)(-p(i4))= IY lily 


fe Jl — EE ^ OR AP HAN 91235] > MRA RIK > Moto AOPRAMLE : 


— 


WR > Jude XJ dtu Xd8q.: PFECR S 36K AAE RAAEN. 
5 


一 种 常用 的 度量 是 分 类 误差 : 


I, =1—max{ p(i|t)} 


这 个 度量 更 建议 在 剪 枝 时 使 用 ， 而 不 是 在 构建 决策 树 时 使 用 。 举 个 简单 的 例子 ， 说 明 一 下 为 
什么 不 建议 构建 树 时 用 : 


A B 


(30, 10) (10, 30) (20, 40) (20, Q) 





A 


Dp 中 包含 40 个 正 例 样本 和 40 个 负 例 样 本 ， 然 后 分 割 为 两 个 子 节点 。 信 息 增 益 使 用 分 类 误差 作 
为 度量 ， 得 到 的 值 在 A、B 情 况 下 相同 ， 都 是 0.25, 计 算 过 程 如 下 : 


I,(D,)=1-0.5=0.5 


£ 


F: 4 | 
A: I; (D) -1-2-025 


Ex wx B 
4:1, (Dagu )=1-7= 025 


| 4 4 
A: IG; - 0.5—025— 0.25 =0.25 


B:IG, = 05-53-07 0.25 


如 果 使 用 基尼 系数 ， 则 会 按照 B 情 况 分 割 : 


— 


B:1G, =0.5 -203- 0=0.16 


FE > do REA EE > WAR RBDS : 


I, (D, ) - - (0.5 log, (0.5)+0.5 log, (0.5)) =1 


| (3 33.1. fi - 
A:I4(D,)- (3 log, =| F log, E) — 0.81 


Eras 


Z L2 Be + 
T Xa E] T7 = 
HS X48 "WEB uL 


| the (3 
Fp (D... j- (5 log, n 十 4 log, 4) — 0.81 


A:lG, =1- “081 一 “081 — 0.19 
e e 


| 2 (2| 4 4 | 
HI. (Do | = I (=) + z 08: + (2) = 0.92 


B:IG, = 1- 2092-0 - 0.31 


决策 树 通过 将 特征 空间 分 割 为 矩形 ， 所 以 其 决策 界 很 复杂 。 但 是 要 知道 过 大 的 树 深 度 会 导致 
ud > PVR RIFF LAK R AGRO o RAMA sklearn > 12 AREARE 0 DIAM RA 
深度 为 3 的 决策 树 。 还 有 一 点 ， 对 于 决策 树 算 法 来 说 ， 特 征 缩 放 并 不 是 必须 的 。 代 码 如 下 


In [26]: from sklearn. tree import DecisionTreeClassifier 
In [27]: tree = DecisionTreeClassifier (criterion= entropy , max depth-3, random state-cQ) 


In [28]: trse.fit!X train, y train) # AD standardized 


Out[28]: DecisionTreeClassifier (class weizht-Mone, criterion= entropy , max depth-3, 
max features-Mone, max leaf nodes-None, min samples leaf-l, 
min samples split-2, min weight fraction leaf-ü.UÜ, 
presort-False, random states), splitter- best’! 


In [29]: X combined = np.vetack((K train, X test]! 
y combined = np.hstack(iy train, v test)) 


In [30]: plot decision rezions(E combined, y combined, classifier=tree, test idz-ranzeílü5, 150)) 
plt. xlabel( petal length [cm]’)} 
plt. ylabel ( petal width [cem]') 
plt. legend {loc=' upper left’! 
plt. show!) 


执行 上 面 的 代码 ， 我 们 得 到 如 下 结果 ， 决 策 界 和 坐标 轴 和 平行 : 





petal width [cm] 





0 1 2 3 4 5 B j 
petal length [cm] 


sklearn 的 一 大 优点 是 可 以 将 训练 好 的 决策 树 模型 输出 ， 保 存在 .dot 文 件 ， 我 们 可 以 利用 
GraphViz 对 其 可 视 化 。 


先 调用 sklearn 中 export graphviz 将 树 模型 导出 : 
In [31]: 在 om sklearn. tree import export zraphviz 


In [32]: export _graphviz (tree, out file= tree.dot', feature names-['petal length’, 'petal width J) 


然后 利用 GraphViz 程 序 将 tree.dot 转 为 PNG 图 片 : 


petal width <= 0.7500 
entropy = 1.57991767826 
samples = 105 


entropy = 0.0000 petal length <= 4.9500 
samples = 34 entropy = 0.9929768856609 
value = [ 34. 0. Q.] samples = 71 


petal width <= 1.6500 petal length <= 5.0500 
entropy = 0.43055186701 entropy = 0.179256066928 
samples = 34 samples = 37 


entropy = 0.0000 entropy = 0.8113 entropy = 0.8113 entropy = 0 0000 
samples = 30 samples = 4 samples = 4 samples = 33 
value =[ 0. 30. 0] value 2[0. 1. 3.] value= [ 0. 1. 3.] value 2[ 0. 0. 33.] 





现在 我 们 可 以 查看 决策 树 在 构建 树 时 的 过 程 : 根 节点 105 个 样本 ， 使 用 petal width «20.7527 


m 


2 


为 两 个 子 节点 。 经 过 第 一 个 分 割 ， 我 们 可 以 发 现 左 节点 中 样本 都 是 同一 类 型 ， 所 以 停止 此 
节点 的 分 割 ， 右 节点 继续 分 割 ， 注 意 一 点 ， 在 构建 决策 树 时 两 个 特征 各 使 用 了 两 次 。 


随机 森林 


随机 森林 一 直 是 广 受 欢迎 的 模型 ， 优 点 很 多 : 优秀 的 分 类 表现 、 扩 展 性 和 使 用 简单 。 随 机 森 
林 的 思想 也 不 复杂 ， 一 个 随机 森林 模型 就 是 多 颗 决 策 树 的 集成 。 集 成 学 习 (ensemble learning) 
的 观点 是 将 多 个 弱 分 类 器 结合 来 构建 一 个 强 分 类 器 ， 它 的 泛 化 误 兰 小 且 不 多 过 拟 合 。 


随机 森林 算法 大 致 分 为 4 个 步骤 : 


e 通过 自助 法 (bootstrap) 构 建 大 小 为 n 的 一 个 训练 集 ， 即 重复 抽样 选择 n 个 训练 样 例 
e 对 于 刚才 新 得 到 的 训练 集 ， 构 建 一 棵 决策 树 。 在 每 个 节点 执行 以 下 操作 : 


o 通过 不 重复 抽样 选择 d 个 特征 


o 利用 上 面 的 d 个 特征 ， 选 择 菜 种 度量 分 害 节 点 
e 重复 步骤 1 和 2，kK 次 
e 对 于 每 一 个 测试 样 例 ， 对 k 颗 决 梨 树 的 预测 结果 进行 投票 。 昧 数 最 多 的 结果 就 是 随机 森林 
的 预测 结果 。 至 于 如 何 投 票 ， 下 面 会 讲 到 。 
随机 森林 中 构建 决策 树 的 做 法 和 原始 决策 树 的 区 别 是 ， 在 每 次 分 割 节点 时 ， 不 是 从 所 有 特征 
中 选择 而 是 在 一 个 小 特征 集中 选择 特征 。 


虽然 随机 森林 模型 的 可 解释 性 不 如 决策 树 ， 但 是 它 的 一 大 优点 是 受 超 参 数 的 影响 波动 不 是 很 
大 ( 译 者 注 : 几 个 主要 参数 还 是 需要 好 好 调 参 的 ) 。 我 们 也 不 需要 对 随机 森林 进行 剪 枝 因为 集成 
模型 的 鲁 棒 性 很 强 ， 不 会 过 多 受 单 棵 决策 树 噪音 的 影响 。 


在 实际 运用 随机 森林 模型 时 ， 树 的 数目 (k) 需 要 好 好 调 参 。 一 般 ，k 越 大 ， 随 机 森林 的 性 能 越 
好 ， 当 然 计 算 成 本 也 越 高 。 


样本 大 小 hn 能够 控制 bias-variance 平 衡 ， 如 果 n 很 大 ， 我 们 就 减 小 了 随机 性 因此 随机 森林 就 容 
钨 过 拟 合 。 另 一 方面 ， 如 果 n 很 小 ， 虽 然 不 会 过 拟 合 ， 但 模型 的 性 能 会 降低 。 大 多 数 随 机 牺 林 
的 实现 ， 包 括 sklearn 中 的 RandomForestClassifier ，n 的 大 小 等 于 原始 训练 集 的 大 小 。 


在 每 一 次 分 割 时 特征 集 的 大 小 d， 一 个 最 起 码 的 要 求 是 要 小 于 原始 特征 集 大 小 ，sklearn 中 的 默 
认 值 9 二 m3”?， 其 中 m 是 原始 特征 集 大 小 ， 这 是 一 个 比较 合理 的 数值 。 


直接 调用 sklearn 来 看 一 下 随机 森林 吧 : 


In [33]: from sklearn. ensemble import RandomForestClassifier 
forest = RandomForestClassifierlcriterion- entropy , n estimators-lÜ, random state-l,n jobs-2] 


In [84]: forest.fit(¥ train, v train) 


Out[34]: RandomForestClassifier(bootstrap-Irue, class weight=None, criterion= entropy , 
max depth-Mone, max features= auto’, max leaf nodes=None, 
min samples leaf-l, min samples split-z, 
min weight fraction leaf®). 0, n estimators-lÜU, n jobz-2, 
oob score-False, random zstate-l, verboseS, warm start-Falze) 


In [35]: plot decision rezions|(X combined, y combined, classifier=forest, test idx=ranze (105, 150)) 
plt. xlabel( petal length’ ) 
plt. ylabel ( petal width’ } 
plt. legendiloc™ upper left’) 
plt. showt] 
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虽然 我 们 在 一 个 小 数据 集 上 训练 了 一 个 非常 小 的 模型 ， 但 我 还 是 使 用 了 n_jobs 这 个 并 行 化 
数 ， 此 处 使 用 了 计算 机 的 两 个 核 训练 模型 。 


k 近 邻 -- 一 个 懒 情 学 习 算 法 


本 章 我 们 要 讨论 的 最 后 一 个 监督 学 习 算 法 是 k 紧 邻 算 法 (k-nearest neighbor classifier, KNN), 这 
个 算法 很 有 意思 ， 因 为 他 背后 的 思想 和 本 章 其 他 算法 完全 不 同 。 


KNN 是 懒惰 学 习 的 一 个 典型 示例 。 之 所 以 称 为 “懒惰 ?并 不 是 由 于 此 类 算法 看 起 来 很 简单 ， 而 是 
AMARA SL EP RRA HRA PFI A BAA A BH) RICE SE PI HF © 


Note 参数 模型 VS 变 参 模型 


机 器 学 习 算 法 可 以 被 分 为 两 大 类 : 参数 模型 和 变 参 模型 。 对 于 参数 模型 ， 在 训练 过 程 中 我 们 
学 习 一 个 函数 ， 重 点 是 估计 郊 数 的 参数 ， 然 后 对 于 新 数据 集 ， 我 们 直接 用 学 习 到 的 函数 对 
齐 分 类 。 典 型 的 参数 模型 包括 感知 机 、 人 逻辑 斯 营 回 归 和 线性 SVM 。 与 之 相对 的 ， 变 参 模 型 中 
I 参数 个 数 不 是 固定 的 ， 它 的 参数 个 数 随 着 训练 集 增 大 而 增多 1! 很 乡 书 中 变 参 
(nonparametric) 被 翻译 为 无 参 模 型 ， 一 定 要 记 住 ， 不 是 没有 参数 ， 而 是 参数 个 数 是 变量 ! FE 
参 模 型 的 两 个 典型 示例 是 决策 树 /随机 森林 和 核 SVM 。 


KNN 属 于 变 参 模型 的 一 个 子 类 : 基于 实例 的 学 习 (instance-based learning)。 基 于 实例 的 学 习 
的 模型 在 训练 过 程 中 要 做 的 是 记 住 整 个 训练 集 ， 而 懒惰 学 习 是 基于 实例 的 学 习 的 特例 ， 在 整 
个 学 习 过 程 中 不 涉及 损失 函数 的 概念 。 


KNN ŽAJA RAA” PRT: 


e 1 确定 k 大 小 和 距离 度量 。 
e 2 对 于 测试 集中 的 一 个 样本 ， 找 到 训练 集中 和 它 最 近 的 k 个 样本 。 
e 3 将 这 k 个 样本 的 投票 结果 作为 测试 样本 的 类 别 。 


一 图 胜 千 言 ， 请 看 下 图 : 





对 每 一 个 测试 样本 ， 基 于 事先 选择 的 距离 度量 ，KNN 算 法 在 训练 集中 找到 距离 最 近 (最 相似 ) 的 
k 个 样本 ， 然 后 将 K 个 样本 的 类 别 的 投票 结果 作为 测试 样本 的 类 别 。 


像 KNN 这 种 基于 内 存 的 方法 一 大 优点 是 : 一 旦 训练 集 增 加 了 新 数据 ， 模 型 能 立刻 改变 。 另 一 
方面 ， 缺 点 是 分 类 时 的 最 坏 计 算 复 杂 度 随 着 训练 集 增 大 而 线性 增加 ， 除 非特 征 维 度 非 常 低 并 
且 昔 法 用 诸如 KD- 树 等 数据 结构 实现 。 此 外 ， 我 们 要 一 直 保 存 着 训练 集 ， 不 像 参 数 模型 训练 好 
模型 后 ， 可 以 丢弃 训练 集 。 因 此 ， 存 储 空 间 也 成 为 了 KNN 处 理 大 数据 的 一 个 瓶颈 。 


下 面 我 们 调用 sklearn 训 练 一 个 KNN 模 型 : 
In [10]: from sklearn.neizhbors import ENeishborzClazszifier 
In [11]: knn = EWeighborsClassifier (n neizhbors-5, p-2, metric- minkowski') 


In [12]: knn.fitiX train std, y train) 


Out[12]: ENeishborsClassifier(alzorithm- auto’, leaf size-30, metric= minkoyski’ , 
metric params-Mone, n jobs-l, n neizhbors-5, p=2, 
weishtz- uniform | 


In [13]: plot decision rezionsíX combined std, ¥ combined, classifier-knn, test idx-ranze(lO5, 150]) 
plt. xlabel (’ petal length [standardized]’ } 
plt. wlabelt petal width [standardized]’ } 
plt. show!) 


我 们 设置 k=5， 得 到 了 相对 平滑 的 决策 界 : 


petal width [standardized] 





—2 -1 0 1 2 
petal length [standardized] 


k 的 选择 对 于 KNN 模 型 来 说 至 关 重 要 ， 除 此 之 外 ， 距 离 度 量 也 是 很 有 用 的 。 通 常 ， 欧 反 距 离 用 


于 实数 域 的 数据 集 ， 此 时 一 定 要 对 特征 进行 标准 化 ， 这 样 每 一 维度 特征 的 重要 性 等 同 。 我 们 
在 上 面 的 代码 中 使 用 的 距离 度量 是 ,minkowski', 它 是 欧 氏 距离 和 曼哈顿 距离 的 一 般 化 : 





如 果 p=2， 则 退化 为 欧 氏 距离 ，p=1， 则 退化 为 受 哈 顿 距离 。 使 用 metric 参 数 可 以 选择 不 同 的 
距离 度量 。 

Note 维度 诅 唤 

注意 ， 如 果 特 征 维度 过 大 ，KNN 算 法 很 容易 过 拟 合 。 我 们 可 以 想象 ， 对 于 一 个 固定 大 小 的 训 
练 集 ， 如 果 特 征 空 间 维 度 非常 高 ， 空 间 中 最 相似 的 两 个 点 也 可 能 距离 很 远 ( 差 别 很 大 )。 虽 然 我 
们 在 逻辑 回归 中 讨论 了 正则 项 来 防止 过 拟 合 ， 但 是 正则 项 却 不 适用 于 KNN 和 决策 树 模 型 ， 我 
们 只 能 通过 特征 选择 和 降 维 手段 来 避免 维度 诅咒 。 下 一 章 我 们 会 讲 到 。 


d 2l 
IND 72 
本 草 ， 你 学 习 了 许多 不 同 的 机 器 学 习 算 法 ， 用 于 解决 线性 和 非 线性 问题 。 如 果 我 们 关注 模型 
可 解释 性 ， 决 采 树 是 很 好 的 选择 。 远 辑 斯 莆 回归 不 但 可 以 在 在 线 学 习 场 景 下 大 展 拳 脚 还 能 预 
测 概 座 。 虽 然 SVM 能 解决 线性 和 非 线 性 问题 ， 但 是 它 参 数 个 数 比 较 多 ， 调 参 提 麻烦 。 集 成 算 
法 包括 随机 森林 则 不 需要 调节 过 多 的 参数 ， 也 不 会 像 决策 树 一 样 容 易 过 拟 合 ， 这 使 得 它 很 受 
欢迎 。KNN 通 过 懒 情 学 习 进 行 分 类 ， 他 不 需要 模型 训练 的 过 程 但 是 在 预测 时 的 计算 成 本 相对 
比较 高 。 

然而 ， 比 选择 合适 的 算法 更 重要 的 是 训练 集 数 据 本 身 。 如 果 数 据 的 特征 不 够 好 ， 再 好 的 算 

也 没 用 。 


在 下 一 章 ， 我 们 会 讨论 预 处 理 涉及 到 的 内 容 。 


第 四 章 构建 一 个 好 的 训练 集 --- 数 据 预 处 理 


数据 的 质量 和 包含 的 有 用 信息 量 是 决定 一 个 机 器 学 习 算 法 能 够 学 多 好 的 关键 因素 。 因 此 ， 我 
们 在 训练 模型 前 评估 和 预 处 理 数据 显得 至 关 重 要 。 在 本 章 ， 我 们 要 讨论 必 不 可 少 的 预 处 理 技 
术 ， 能 够 帮助 我 们 构建 更 好 的 机 器 学 习 模 型 


本 草 涉 及 的 主题 : 
© 移 除 数据 集中 的 缺失 值 
e 将 分 类 (category) 数 据 转型 ， 能 够 被 机 器 学 习 萌 法 处 理 
e 特征 选择 


处 理 缺 失 值 


ILE PARE Bee RMS MS WAR KI GR © 4 因 多 种 多 样 ， 可 能 是 数据 收集 阶段 发 生 错 
误 ， 也 可 能 数据 调研 阶段 茶 些 选项 没有 被 十 写 论 是 什么 原因 造成 的 缺失 值 ， 我 们 都 统一 
其 看 做 空格 或 者 用 NaN(Not a viii a ed o 


不 幸 地 是 ， 大 多 数 计 算 工 具 不 能 处 理 缺 失 值 ， 即 使 我 们 忽略 缺失 值 也 不 能 产生 预测 结果 。 
此 ， 我 们 必须 认真 对 待 缺 失 值 问题 。 在 讨论 处 理 缺 失 值 的 方法 之 前 ， 我 们 先 创建 一 个 例子 ， 
以 便 更 好 地 理解 缺失 值 问题 : 


In [2]: | from io import StringzIO 


In [3]: cav data = 


In [4]: csv data = unicodeicsv data) 


In [5]: df = pd.read cev {StringI csv data) 


[OO 


[rn so on [oo- 
加 四 四 加 


上 面 的 代码 ， 我 们 创建 了 一 个 csv 格 式 的 变量 csv_data, 然后 读 入 DataFrame 对 和 象 ， 注 意 其 中 
两 个 缺失 值 被 NaN 替 代 了 。 





如 果 DataFrame 对 象 包含 的 数据 很 多 ， 人 工 来 查找 NaN 就 不 现实 了 。 我 们 可 以 使 用 isnull 方 法 
来 返回 一 个 值 为 布尔 类 型 的 DataFrame， 判 断 每 个 元 素 是 否 缺 失 ， T 值 为 
True。 然 后 使 用 Sum 方 法 ， 我 们 就 能 得 到 DataFrame 中 每 一 列 的 缺失 值 个 数 ， 还 是 看 代码 理解 
"n 


In [T]: dË. isnulli). sum) 
4 g 
B 0) 
C 1 
d 1 
d 


type: intüd 


现在 我 们 知道 如 果 统 计 DataFrame 每 一 列 中 的 缺失 值 个 数 。 下 一 节 我 们 学 习 几 种 处 理 缺 失 值 
的 策略 。 


Note 虽然 scikit-learn 和 NumPy 数 组 结合 的 很 方便 ， 但 是 预 处 理 时 还 是 推荐 使 用 pandas 的 
DataFrame 格 式 而 非 NumPy 数 组 。 由 DataFrame 对 象 得 到 NumPy 数 组 很 方便 ， 直 接 通 过 
values 属 性 即 可 ， 然 后 就 可 以 用 sklearn 中 的 算法 了 : 


In [8]: dt. values 
Out[B]: arravyi[[ 1. UM doe 4. ], 
[ 


; D., nan, B. ] ， 


J. 
L 0., 11., 12., nan]]i 


消除 带 有 缺失 值 的 特征 或 样本 


处 理 缺 失 值 最 简单 的 手段 无 疑 是 直接 将 带 有 缺失 值 的 特征 ( 列 ) 或 样本 ( 行 ) 从 数据 集中 去 掉 。 去 
掉 行 可 以 通过 dropna 方 法 : 


In [8]: df.dropna(?) 


Out [9] : 





去 掉 列 同样 用 dropna 方 法 ， 只 不 过 将 参数 axis 设 置 为 1 : 


In [10]: df.dropnaíaxis-l! 


Out [10] : 





In [11]: 2A SALES E ie A vee P 
df. dropnaihow- all’ } 


Out [11]: 


g 四 四 四 四 
加 四 四 区 


In [12]: 办 ZJEASEEGXE B6 XE auf 
df. dropna(thresh=4) 





Out [12]: 





In [13] : 办 Fe EH ah Bian fr 
df. dropnalsubset=['C° ]) 


sso: a Ts Je Jo 
[四 加 ED 





加 四 四 加 


虽然 移 除 缺失 值 的 操作 很 简单 ， 但 是 这 样 做 的 缺点 也 很 明显 ， 比 如 ， 如 果 每 一 行 都 有 一 个 缺 
失 值 ， 那 整个 数据 集 都 被 移 除 了 。 或 者 移 除 了 过 多 的 特征 。 


下 一 节 我 们 学 习 处 理 缺 失 值 览 正 常用 的 做 法 : 插入 法 (interpolation)。 


改写 缺失 值 


用 移 除 法 处 理 缺 失 值 的 缺点 很 明显 ， 过 于 暴力 ， 会 丢掉 很 多 数据 信息 。 怎 样 保 留 那 些 非 缺 失 
值 数据 的 同时 处 理 缺 失 值 呢 ? 这 就 是 插入 法 ， 用 一 个 估计 和 值 来 蔡 代 缺失 值 。 最 第 用 的 是 平均 
估计 法 ， 即 用 整个 特征 列 的 平均 值 代替 这 一 列 的 缺失 值 。 


使 用 sklearn 中 的 Imputer 类 能 很 容易 实现 此 方法 : 
In [18]: from sklearn. preprocessing import Imputer 


In [15]: imr 
Imr 


Imputer (missing values- NaN’, strategy= mean’, axis] 


imr. fit (dt) 


In [18]: imputed data = imr. transformidf. values! 


In [24]: print df. values 
printi ——— —— —— i 
print imputed data 
H zb o X 5 G 


[ <A. A. nan  &.] 
[ O. 1l. 12. nanll 


[| sl; 2. 3c 4. 
[ Ha: B. 7.5 8. ] 
[ Sh. deh EE. B 


先 计算 每 一 列 的 平均 值 ， 然 后 用 相应 列 的 平均 值 来 替换 NaN。 如 果 将 参数 axis=0 改 为 axis=1， 
则 会 计算 每 个 样本 的 所 有 特种 的 平均 值 。 参 数 Strategy 的 其 他 取 值 包括 median 和 
most frequent » most frequent 对 于 处 理 分 类 数据 类 型 的 缺失 值 很 有 用 。 


理解 sklearn 中 estimator 的 API 


上 一 节 我 们 调用 了 sklearn 中 Imputer 类 来 处 理 缺 失 值 。Imputer 属 于 sklearn 中 所 谓 的 
transformer 类 ， 专 门 用 于 数据 转换 。 此 类 estimator 的 两 个 必 不 可 少 的 方法 是 ft 和 transform。 
fit 方 法 用 于 从 训练 集中 学 习 模 型 参数 ，transform 用 学 习 到 的 参数 转换 数据 。 


任何 要 进行 转换 的 数据 的 特征 维度 必须 和 人 ff 时 的 数据 特征 维度 相同 。 


下 图 演示 了 ft 和 transform 的 过 程 


Training 
Data 


| est. fit(xX train) 


- 


est.transform(X train) est.transform(X test) 























Transformed ` Transformed | 
Training Data Test Data 











我 们 在 第 三 章 用 到 的 各 类 分 类 器 属于 sklearn 中 的 estimator， 它 的 API 和 transformer 非 常 像 。 
Estimator 还 有 一 人 predict o A382 034528 transform i ° A3 Estimator 2 A fit% AK F 
习 模 型 参数 。 只 不 过 不 同 的 是 ， 在 监督 学 习 时 ， 我 们 还 像 优 方法 提供 每 个 样本 的 类 别 信 息 。 


理解 sklearn 中 estimator 的 API 
Training Training 


Data Labels 


est.predict(X train, y train) 


Predicted j 
labels 


Y est.fit(X_train,y_train)) 


Model || Test Data 


est.predict(X test)x 





( 图 中 应 
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处 理 分 类 数据 


目前 为 止 ， 我 们 处 理 的 都 是 数值 型 变量 。 但 是 真实 世界 的 数据 集 通常 都 含有 分 类 
(categorical value) 的 特征 。 当 我 们 讨论 分 类 型 数据 时 ， 我 们 不 区 分 其 取 值 是 否 有 序 。 比 如 T 恤 
尺寸 是 有 序 的 ， 因 为 XL>L>M。 而 T 恤 颜色 是 无 序 的 。 


在 讲解 处 理 分 类 数据 的 技巧 之 前 ， 我 们 先 创建 一 个 新 的 DataFrame 对 象 : 


In [30]: df = pd. DataFrame([[ zreen' ， "W, 10.1, 'classl'], 
red. “L ; 15.5, classe |, 
[blue , XL, 15.3, clagel |]; 


In [21]: df.columns = ['color', ‘size’, ‘price’, 'classlabel'] 


In i22]: [Bebe 


^2): | Jeolor size price | ctasstabe 
o'green M [101 cess — 


Me p [es fes — 
alone x [s [omm — 





上 面 创建 的 数据 集 含有 无 序 特征 (color)， 有 序 特征 (size) 和 数值 型 特征 (price)。 最 后 一 列 存 储 
的 是 类 别 。 在 本 书 中 类 别 信 息 都 是 无 序 的 。 


映射 有 原 特 征 


为 了 保证 学 习 算 法 能 够 正确 解释 有 序 特 征 (ordinal feature)， 我 们 需要 将 分 类 型 字符 串 转 为 整 
型 数值 。 不 位 地 是 ， 并 没有 能 够 直接 调用 的 方法 来 自动 得 到 正确 顺序 的 size 特 征 。 因 此 ， 我 们 
要 上 日 己 定义 映射 函数 。 在 接 下 来 的 简单 的 示例 ， 假 设 我 们 知道 特征 取 值 间 的 不 同 ， 比 如 
XL=L+1=M+2 ° 


In [23]: size mapping = | 
URL 4, 
E si oe 
"Wd 


In [24]: df[ size] = df[ size’ ].maplsize mapping! 


Fn [ERIT 


^5): | jeolor size price | ctasstabe 
o|green|1 [10.1 cess — 


sie ss ee 





如 果 我 们 还 想 将 整 型 变量 转换 回 原 来 的 字符 串 表 示 ， 我 们 还 可 以 定义 一 个 反映 射 字典 
k for k, v in size mapping.items()? ° 


对 类 别 进 行 编码 


许多 机 器 学 习 库 要 求 类 别 是 整 型 数值 。 虽 然 sklearn 中 大 部 分 Estimator 都 能 自动 将 类 别 转 为 整 
型 ， 我 还 是 建议 大 家 手动 将 类 别 进 行 转换 。 对 类 别 进 行 编码 ， 和 上 一 节 中 转化 序列 特征 很 相 
似 。 但 不 同 的 是 类 别 是 无 序 的 ， 所 以 我 们 可 以 从 0 开始 赋 整 数值 : 


In [28]: import numpy as np 
In [30]: class mapping = [label:idx fox idx, label im enumerate inp. unique (df [’ classlabel']3j! 


In [31]: class mapping 


Out[31]: {classl’: 0, 'classz?': 1} 
接 下 来 我 们 可 以 利用 映射 字典 对 类 别 进 行 转换 : 
In [32]: df[ classlabel’] = dfl'classlabel'].mapíclass mapping! 


In [33]: Bus 


^A 93): | olor size price | ctasstabe 
eigen! 010 — 


se [esp —— 


得 到 整 型 类 别 值 ， 也 可 以 用 映射 字典 转 为 原始 的 字符 串 值 : 





In [34]: inv class mapping = lv: k for k, v im class mapping. items)! 
In [35]: df[ classlabel’] = dfl'classlabel'].mapiinv class mapping) 


In [368]: 


Out [368] : 


dt 

Cer nn prn sinn 
Pe] [so faes 
Me [espe 






alone [> esum — 


上 面 是 我 们 自己 手动 创建 的 映射 字典 ，sklearn 中 提供 了 LabelEncoder 类 来 实现 类 别 的 转换 : 


In [37]: from sklearn. preprocessing import LabelEncoder 
In [38]: class le = LabelEncoderí) 
In [38]: y = class le. fit_transform(df[’ classlabel’ ]. values) 


In [40]: vy 
Out[d0]: array((0, 1, O], dtype=intéd) 


fit_transform 方 法 是 fit 和 transform 两 个 方法 的 合并 。 我 们 还 可 以 调用 inverse_transform 方 法 得 
到 原始 的 字符 串 类 型 值 : 


In [41]: class le. inverse transform) 


Out[41]: arravt[ classl', 'classzZ', 'classl'], dtype-object) 


对 离散 特征 进行 独 热 编码 


前 面 一 节 我 们 使 用 字典 映射 来 转化 有 序 特 征 ， 由 于 sklearn 中 Estimator 把 类 型 信息 看 做 无 序 
的 ， 我 们 使 用 LabelEncoder 来 进行 类 别 的 转换 。 而 对 于 无 友 的 离散 特征 ， 我 们 也 可 以 使 用 
LabelEncoder 来 进行 转换 : 


In [42]: E = df[[l' color’, ‘size’, ‘price’ ]]. values 
In [43]: color le = LabelEncoder í) 
In [45]: X[:, 0] = color le.fit transformiX[:, OQ]? 


In [48]: ZX 


OQut[46]: array([[1L, 1L, 10.1], 
[2E.. Bis. 5355]. 
(OL, 3L, 15.3]]. dtype=object! 


现在 我 们 将 无 序 离 散 特 征 转 换 为 整 型 了 ， 看 起 来 下 一 步 就 是 直接 训练 模型 了 。 如 果 你 这 样 

想 ， 茶 喜 你 ， 你 犯 了 一 个 很 专业 的 错误 。 在 处 理 分 类 型 数据 (categorical data) > 33 iit 很 第 见 
的 错误 。 你 能 发 现 问 题 所 在 吗 ? 虽然 " 闫 色 " 这 一 特征 的 值 不 含有 顺 厚 ， 但 是 由 于 进行 了 以 下 转 
换 : 


* blue 0 
e green 7 1 
* red 2 


F I HA AWA ‘green’ tt ‘blue’ X. » 'red'Itgreen' 大 。 而 这 显然 是 不 正确 的 ， 因 为 本 身 颜 色 是 
无 序 的 | 模型 错误 的 使 用 了 颜色 特征 信息 ， 最 后 得 到 的 结果 肯定 不 是 我 们 想 要 的 。 


AR Z de 4] Ab £8 7c He AAG AEE, 0 第 用 的 做 法 是 独 热 编码 (one-hot encoding)。 独 热 编码 会 为 
每 个 匈 散 值 创建 一 个 哑 特 征 (dummy feature) ° 4+ A LAF HEV ? 举例 来 说 ， 对 于 ' 磊 色 ' 这 一 特 
征 中 的 ' 蓝 色 '， 我 们 将 其 编码 为 [ 蓝 色 =1， 绿 色 =0， 红 色 =0]， 同 理 ， 对 于 ' 绿 色 '， 我 们 将 其 编码 
为 [ 蓝 色 =0， 绿 色 =1， 红 色 =0]， 特 点 就 是 向 量 只 有 一 个 1， 其 余 均 为 0， 故 称 之 为 one-hot。 


在 sklearn 中 ， 可 以 调用 OneHotEncoder 来 实现 独 热 编码 : 


In [47]: from sklearn. preprocessing import OneHotEncoder 
In [48]: ohe = OneHotEncoder (categorical features=[0]) 


In [49]: ohe. fit transformiX). toarray() 


Out[49]: array([[ a. , bs 2 Ü. ， ls: x elec» 
[ oO. , a., Ec s 2. v sbgcs]. 
[ 1. , Oo. , OS , a a 15:311) 

jk [p 

In [50]: | X 


Out[50] : array([[1iL, 1L, 10.1], 
ile, S IDs mp. 
(OL, 3L, 15.3]],. dtype=object! 


w P d 


In [51]: ohe.fit transform/X) 


Out[51]: <3x5 sparse matrix of type 《tybe "numpy.floatü4 >’ 
with 9 stored elements in COOrdinate format? 


在 初始 化 OneHotEncoder 时 ， 通 过 categorical _ features 参数 设置 要 进行 独 热 编码 的 列 。 还 要 
注意 的 pti ma 法 默认 返回 稀 足 和 矩阵， 所 以 我 们 调用 toarray() 方 法 将 
稀 足 矩阵 转 为 一 般 和 矩阵。 我 们 还 可 以 在 初始 化 OneHotEncoder 时 通过 参数 sparse=False 来 设 
置 返 回 一 般 和 矩阵 。 


除了 使 用 sklearn 中 的 OneHotEncoder 类 得 到 哑 特 征 ， 我 推荐 大 家 使 用 pandas 中 的 
get. dummies 7 ;X & &| Æ 44 HE > get dummies 默 认 会 对 DataFrame 中 所 有 字符 串 类 型 的 列 
站 行 独 热 编码 : 


In [52]: pd.get dummiesidf[[ price’, ‘color’, ‘size’ ll? 


o8 pores nie color bu [ctor ren [cocus 
qe p p o p 


ses] [ro lo o 





将 数据 集 分 割 为 训练 集 和 测试 集 


本 节 ， 我 们 使 用 一 个 新 的 数据 集 : Wine。Wine 也 属于 UCI 开 源 数 据 集 ， 它 包含 178 个 样本 ， 
每 个 样本 有 13 维 度 特征 ， 描 述 了 不 同 的 化 学 属性 。 


Wine 数 据 集 


In [53]: df wine = pd.read csv(Ü https://archive. ics. uci. edu/ml/machine—learning—databases/wine/wine. data’, header=None) 


In [54]: df wine.columns = ['Class label’, ’Alcohol’, 'Malic acid’, ’Ash’, 'Alcalinity of ash’, 'Magnesium , 'Total phenols’, 'Flavanoids', 
'Nonflavanoid phenols’, 'Proanthocyanins', 'Color intensity’, *Hue’, 'OD280/O0D315 of diluted wines’, 'Proline'] 


In [55]: print( Class labels’, np.unique(df wine['Class label'])) 


(Class labels’, array([l, 2, 3], dtype=int64)) 


In [56]: df wine.head() 


Out [56] : 
OD280/OD315 
Alcalinity Total Nonflavanoid Color : 
Proanthocyanins of diluted 
of ash phenols phenols intensity 
wines 


h [um hnjae|ws har [2 [se ozs jns lse | 


us exe ju — oo — — pu — jen n — 
[i pes [ros lms lo [eso faze lm [res ee lolm — 
[reor fiss fesofise [no [aos pe [ozs ave — — pe  ospe —T 
M en jue emo [we [eco e low lw — — lem deos — Do 





Wine 数 据 集 一 共有 三 个 类 别 : 1,2193 m A) Hoe FP o 
首先 将 数据 集 随机 分 割 为 训练 集 和 测试 集 ， 一 种 简单 的 方法 是 使 用 sklearn.cross_validation 中 
的 train test split 方法 : 


In [5T]: from sklearn. cross validation import train test split 


In [58]: X, y = df wine.iloc[:, 1:]. values, df wine.iloc[:, 0]. values 


In [58]: X train, X test, y train, y test = train test split/X, y, test size-).3, random state=!! 


解释 一 下 上 面 的 代码 : do SX EXE RIEA o dE X MERA)? ARRA 
train_test_split 方 法 随机 分 割 X 和 y。 通 过 设置 test_size=0.3, 使 得 训练 集 占 Wine 样 本 数 的 
70%， 测 试 集 占 30%。 


Note 在 分 割 数 据 集 时 ， 如 果 确 定 训 练 集 和 测试 集 的 大 小 没有 通用 的 做 法 ， 一 般 我 们 选择 
60:40, 70:30 或 者 80:20。 对 于 大 数据 集 ，90:10 其 至 99:1 也 是 比较 常见 的 。 还 要 注意 的 是 ， 通 
过 本 地 验证 得 到 最 优 模型 和 参数 时 ， 还 要 在 整个 数据 集 ( 训 练 集 + 验 证 集 + 测 试 集 ) 上 训练 一 次 ， 
得 到 最 终 的 模型 。 


— A AEJBUAR. 7e, E] 


特征 缩放 (feature scaling) 是 预 处理 阶 段 的 关键 步 又， 但 常常 被 遗忘 。 虽 然 存在 决策 树 和 随机 


森林 这 种 是 少数 不 需要 特征 缩放 的 机 器 学 习 算 法 ， 但 对 于 大 部 分 机 器 学 习 算 法 和 优化 算法 来 
说 ， 如 果 特 征 都 在 同一 范围 内 ， 会 获得 更 好 的 结果 。 比 如 第 二 草 提 到 的 梯度 下 降 法 。 

特征 缩放 的 重要 性 可 以 通过 一 个 简单 的 示例 解释 。 假 设 我 们 有 两 个 特征 ， 一 个 特征 的 取 值 范 
围 是 [1,10], pai 100000]。 我 们 使 用 Adaline 中 的 平方 误差 函数 ， 很 明 
显 ， 权 重 更 新 时 会 主要 根据 第 度 特征 ， 这 就 使 得 在 权重 更 新 过 程 中 第 一 个 特征 的 话语 权 
ge ep teal pap jM ATAR 
话语 权 。 

有 两 种 方法 能 使 不 同 的 特征 有 相同 的 取 值 范围 : 归 一 化 (normalization) 和 标准 化 
(standardization)。 两 种 方法 还 是 有 必要 区 分 一 下 的 。 归 一 化 指 的 是 将 特征 范围 缩放 到 [0,1] ， 
是 最 小 -最 大 缩放 (min-max scaling) 的 特例 。 为 了 得 到 归 一 化 结果 ， 我 们 对 每 一 个 特征 应 用 最 
小 -最 大 缩放 ， 计 算 公 式 如 下 


""max A min 


已 


Hw , i p Dnt i kg 的 结果 ，Tmia 是 对 应 的 列 特征 也 小 值 ，Tmar 则 是 也 大 值 。 


sklearn 中 实现 了 最 小 -最 大 缩放 ， 调 用 MinMaxScaler 类 即 可 : 
In [60]: from sklearn. preprocessing import MinMaxScaler 
In [61]: mms = MinMaxScaler () 

In [62]: X train norm = mms.fit transform train! 


In [63]: X test norm = mms. transform/X test! 


虽然 归 一 化 方法 简单 ， 但 相对 来 说 ， 标 准 化 对 于 大 部 分 机 器 学 习 算 法 更 实用 。 原 因 是 大 部 分 
线性 模型 比如 逻辑 斯 蒂 回 归 和 线性 SVM 在 初始 化 权重 参数 时 ， 要 么 选择 0 要 么 选择 一 个 接近 0 
的 随机 数 。 实 用 标准 化 ， 我 们 能 将 特征 值 缩放 到 以 0 为 中 心 ， 标 准 差 为 1， 换 句 话 说， 标准 化 
后 的 特征 形式 服从 正 态 分 布 ， 这 样 学 习 权 重 参 数 更 容易 。 此 外 ， 标 准 化 后 的 数据 保持 了 异常 
值 中 的 有 用 信息 ， 使 得 算法 对 异常 值 不 太 敏感 ， 这 一 点 归 一 化 就 无 法 保证 。 


标准 化 的 计算 公式 如 下 


A 让 NM oS H 
"sd o 


此 时 ，Mz 是 训练 集 对 应 特征 列 的 平均 值 ， 是 对 应 特征 列 的 标准 差 。 


下 面 一 张 表 使 用 一 个 简单 的 例子 ， 展 示 了 标准 化 和 归 一 化 的 区 别 : 





sklearn 中 提供 了 StandardScalar 类 实现 列 标准 化 : 


In [84]: from sklearn. preprocessing import StandardScaler 
In [65]: stdsc = StandardScaleri) 
In [866]: X train std = stdsc. fit_transform(X% train) 


In [O7]: X test std = stdsc. transformiX test) JuX P Eiransform(i/ 


再 次 强调 ，StandardScaler 只 使 用 训练 集 ff 一 次 ， 这 样 保证 训练 集 和 测试 集 使 用 相同 的 标准 
进行 的 特征 缩放 。 


选择 有 意义 的 特征 


如 果 一 个 模型 在 训练 集 的 表现 比 测试 集 好 很 多 ， 那 我 们 就 要 小 心 了 ， 模 型 很 可 能 过 拟 合 了 。 
过 拟 合 意味 前 模型 捕 提 了 训练 集中 的 特例 模式 ， 但 对 未 知 数据 的 泛 化 能 力 比 较 差 ， 我 们 也 说 
模型 此 时 具有 高 方差 。 


模 


型 过 拟 合 的 一 个 原因 是 对 于 给 定 的 训练 集 数据 ， 模 型 过 于 复杂 ， 第 用 的 减 小 泛 化 误 兰 的 做 
法 包括 : 


e 收集 更 多 的 训练 集 数据 

e EMG > BPS) ARH BREE TM 

e 选择 一 个 简单 点 的 模型 ， 参 数 少 一 点 的 
e 降低 数据 的 维度 


在 上 面 的 一 系列 做 法 中 ， 第 一 条 收集 更 多 数据 通常 不 实用 。 在 下 一 章 ， 我 们 会 学 习 一 个 有 用 
的 技巧 来 判断 更 多 的 训练 集 数 据 是 否 有 帮助 。 在 接 下 来 的 章节 ， 我 们 学 习 正 则 化 和 特征 选择 
的 方法 来 降低 过 拟 合 。 


L1E Wu 


阔 


草 ， 我 们 运用 过 |L2 正 则 来 降低 模型 的 复杂 度 ， 当 时 我 们 定义 的 L2 正 则 项 


M 


会 议 第 


Eg 2 一 2 
LZ I| — 》 w^ 
2 : J 

j=l 


除了 L2 正 则 ， 另 一 个 中 减低 模型 复杂 度 的 方法 是 L1 正 则 (L1 regularization) : 


IH 


ust =È 
jÀA 


L2 正 则 项 是 权重 参数 的 平方 和 ， 而 L1 正 则 项 是 权重 参数 的 绝对 值 和 。 相 对 于 L2,L1 正 则 项 趋 
向 于 得 到 稀 朴 特征 向 量 ， 即 很 多 特征 权重 参数 为 0. 如 果 数 据 集 的 特征 维度 很 高 且 特 征 不 相干 
(极端 情况 是 不 相干 的 特征 维度 数目 比 训练 样本 数 还 大 )， 特 征 稀 足 性 是 非常 有 用 的 。 由 于 很 
多 特征 权重 为 0， 所 以 ， 很 多 人 也 把 L1 正 则 看 做 特征 选择 的 一 种 方式 。 


为 了 更 好 地 理解 L1 正 则 倾向 于 产生 稀 琉 特征 ， 让 我 们 看 一 下 正则 化 的 几何 解释 。 假 设 损失 郊 
数 是 差 平 方 损失 函数 (Sum of the squared errors, SSE), 且 只 含有 两 个 权重 参数 tl, Wo F Fos 
失 郊 数 是 凸 了 水 数 。 对 于 给 定 的 损失 函数 ， 我 们 的 目的 是 找到 损失 郊 数 取 最 小 值 时 对 应 的 权重 
值 ， 如 下 图 损失 函数 等 高 线 所 示 ， 当 (1; 1W2) 取 椭圆 中 心 点 时 ， 损 失 郊 数值 最 小 


Minimize cost 
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因此 ， 如 果 增 大 正则 系数 ”的 值 ， 也 就 增 大 了 正则 项 的 威力 ， 也 就 会 导致 权重 参数 变 小 (起 向 
于 0)， 从 而 也 减 小 了 模型 对 训练 数据 的 依赖 。 我 们 在 下 图 画 出 L2 怎 六 项 : 


Minimize cost 


Allwlls 


Minimize cost + penalty 





Minimize penalty 


L2 正 则 项 用 图 上 阴影 球形 表示 。 正 则 化 后 的 3T 30 A E Xm A6 d A RAAE 3 X4] 9T 
换 一 种 思路 解释 这 个 公式 ， 新 的 损失 函 数 还 是 原始 损失 郊 数 ， 我 们 把 正则 项 看 做 权重 参数 的 
限制 条 件 ， 也 就 是 说 ， 权 重 参 数 的 取 值 范围 必须 在 图 中 阴影 球形 内 。 如 果 增 大 Miho Se 
小 阴影 球形 面积 。 比 如 ， 如 果 ” 趋向 正 无 穷 ， 则 阴影 面积 趋向 0， 权 重 参 数 也 趋向 0. 


我 们 总 结 一 下 : 我 们 的 目标 是 最 小 化 原始 损失 有 函数 和 正则 项 ， 等 价 于 在 原始 损失 有 函数 基础 上 
增加 限制 条 件 ， 更 加 偏向 于 简单 模型 来 减 小 方差 。 


现在 我 们 讨论 L1 正 则 项 和 稀疏 性 。L1 正 则 和 刚才 讨论 的 L2 正 则 很 像 。 妆 然 区 别 还 是 有 的 : L1 
正则 是 权重 参数 绝对 值 的 和 ， 我 们 用 一 个 另行 区 域 表 示 ， 如 下 图 所 示 : 


Minimize cost + penalty 
(w; = 0) 





wT XU SpA ^ FOAM A BA AAR o Eb RARE SERE Ds de oo RMR A 
RE BY Th XXE o de RARITA AUS 0 FR aR ^ HE The Elements of Statistical Learning, 
Trevor Hastie, Robert Tibshirani, and Friedman, Springer ° 


对 于 sklearn 中 那些 支持 L1 正 则 的 模型 ， 我 们 只 需要 在 初始 化 时 用 penalty 参 数 设 置 为 L1 正 则 即 
司 : 


In [63]: from sklearn.linear model import LogisticKegression 


In [64]: Logistickegression!penalty= ll') 


Out[64]: LogisticKegression(C=1.0, class weizht-None, dual=False, fit intercept-True, 
intercept scalinz-l, max iter-lOO, multi class= ovr’, n_jobs=1, 
penalty- ll', random state-Mone, solver= liblinear’, tol-0.0001, 
verbose, warm start-Falsze| 
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In [65]: lr = LogisticKezression(penalty= 11°, C-0.1] 


In [866]: lr.fit(X train std, y train) 


Out[66]: LogzisticRegzressioníC-2.1l, class weizht-None, dual-False, fit intercept-True, 
intercept scalinz-l, max iter-lOO0, multi class= ovr’, n_jobs=1, 
penalty- ll', random state-Mone, solver- liblinear', tol-0.0001, 
verbose, warm start-Falsze| 


In [67]: print Training accuracy: , lr.scoreíX train std, y train]) 


(Training accuracy: , 0. 9838709677419355) 


In [69]: print(' Test accuracy: , lr.score!X test std, y test), 


(Test accuracy: , 0.98148148148148151, 


In [70]: lr.intercept 


Out[T0]: arrayi[-0. 38380993, -0.15808033, —0. 700463981) 


由 于 Wine 数 据 集 是 多 类 别 数 据 ， 所 以 lr 使 用 了 One-vs-Rest(OvR) 方 法 ， 所 以 上 面 三 个 值 分 别 


属于 三 个 模型 : 第 一 个 模型 用 类 别 1vs 类 别 2 和 3 ; 第 二 个 模型 用 类 别 2 vs 类 别 1 和 3 ; 第 三 个 
模型 用 类 别 3 vs 类 别 1 和 2。 
In [Ti]: lr.coef_ 
Out[T1l]: array [[ 0. 28004979, 0. g XXE , 0. 02780406, Ü. ; 
[I , U.TloOo0T32, 0. x dd s d 3 
[I yo Oe , 1. 25666102], 
[20.643082 , —0. 06880393, —0. 05720686, Ó. , dU. : 
[I [I x 3D , Q , 0. 82675283, 
0. 06019256, [I , 97104661], 
[ à. , O.06155495, 0. we A , d. ; 
[I , 0. 63030204, 0. ; dd , U.4üTT3585, 
SO, 398256882, 0. 57213550, Ü. ] ]， 
I.coef 得 到 权重 数组 ， 共 三 行 ， 每 一 个 类 对 应 一 行 。 每 一 行 有 13 个 参数 ， 对 应 13 个 特 


o pul 2 各 输入 计算 如 下 : 


m T 
2 = WX, Ttc WX = b3 tw. SWX 
mm L0 J 


我 们 可 以 发 现 权 重 向量 中 有 很 多 0 值 ， 这 说 明 L1 正 则 可 以 作为 特征 选择 的 一 种 手段 ， 得 到 的 模 
型 具有 鲁 棒 性 。 


也 后 ， 我 们 画 出 正则 路 径 ， 即 不 同 正 则 威力 下 的 不 同 特征 的 权重 参考 


In [72]: import matplotlib.pyplot as plt 


In [73]: fig = plt.figure() 


<matplotlib. figure. Figure at Oxldal6240> 


In [78]: ax = plt. subplot (111) 
colors = ['blue', ’green’, 'red', 'cyan', 'magenta', yellow , 'black', 'pink', ’lightgreen’, 'lightblue', 
'gray , ‘indigo’, 'orange'] 
weights, params = [], [] 


for c in np.arange(-4, 6): 
lr = LogisticRegression(penalty= 11’, C-10**c, random state=0) 
lr.fit(X train std, y train) 
weights. append(lr. coef [1]) 
params. append(10 ** c) 


weights = np. array (weights) 
for column, color in zipíranze(weights.shape[1]), colors): 
plt.plot(params, weights[:, column], label-df wine.columns[column:l], color=color) 


plt. axhline(0, color-'black', linestyle-' — , linewidth-3) 

plt.xlim([10**(—5), 10**5]) 

plt.ylabel( weight coefficient’ ) 

plt. xlabel(’c’) 

plt. xscale(’ log’) 

plt.legend(loc- upper left’) 

ax. legend(loc-' upper center’, bbox_to_anchor=(1.38, 1.03), ncol=1, fancybox=True) 
plt. show () 


Alcohol 

Malic acid 

Ash 

Alcalinity of ash 
Magnesium 
Total phenols 
Flavanoids 


Nonflavanoid phenols 
Proanthocyanins 

Color intensity 

Hue 

OD280/0D315 of diluted wines 
Proline 


weight coefficient 





我 们 可 以 发 现 ， 如 果 C<0.1, 正 则 项 威力 很 大 时 ， 所 有 特征 权重 都 为 0， e 
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另 一 种 减 小 模型 复杂 上 度 和 避 狗 过 拟 合 的 方法 是 通过 特征 选择 进行 维度 降低 (dimensionality 
reduction)， 这 个 方法 尤其 对 非 正则 模型 有 用 。 维 度 降 低 有 两 种 做 法 : 特征 选择 (feature 
selection) 和 特征 抽取 (feature extraction)。 


特征 选择 会 从 原始 特征 集中 选择 一 个 子 集 合 。 特 征 抽 取 是 从 原始 特征 空间 抽取 信息 ， 从 而 构 
建 一 个 新 的 特征 子 空间 。 本 节 ， 我 们 学 习 特 征 选 择 算法 。 在 下 一 间 ， 我 们 会 学 到 不 同 的 特征 
抽取 方法 来 将 数据 集 压 缩 到 一 个 低 维度 特征 子 空 间 。 


序列 特征 选择 算法 属于 贪心 搜索 算法 ， 用 于 将 原始 的 d 维 度 特征 空间 降低 到 k 维 度 特征 子 空 
间 ， 其 中 k<d。 


特征 选择 算法 的 原理 是 自动 选择 一 个 特征 子 集 ， 子 集中 的 特征 都 是 和 问题 最 相关 的 特征 ， 这 
样 能 够 提高 计算 效率 并 且 由 于 溢出 了 不 相干 特征 和 噪音 也 降低 了 模型 的 泛 化 误差 。 


个 经 典 的 序列 py 算法 是 序列 后 向 选择 (sequential backward selection, SBS), 它 能 够 降 
i 始 特征 维度 提高 计算 效率 ， 在 东 些 情况 下 ， 如 果 模 型 过 拟 合 ， 使 用 SBS 后 甚至 能 提高 模 
型 的 预测 能 力 。 


Note 贪 心算 法 在 每 一 次 选择 时 都 会 做 出 局 部 最 优选 择 ， 通 常 产 生 一 个 次 优 全 局 解 ， 暴 力 搜 索 
要 考虑 所 有 的 可 能 的 情况 所 以 会 保证 得 到 全 局 最 优 解 。 但 由 于 穷 搜 的 计算 复杂 度 过 高 ， 导 致 
其 并 不 是 最 佳 选择 。 


SBS 算 法 的 idea 很 简单 : SBS 序 列 地 从 原始 特征 集中 移 除 特征 ， 直 到 新 的 特征 集 数目 达到 事先 
确定 的 值 。 而 在 移 除 特征 时 ， 我 们 需要 定义 评价 函数 J。 一 个 特征 的 重要 性 就 用 特征 移 除 后 的 
评价 函数 值 表 示 。 我 们 每 一 次 都 把 那些 评价 函数 值 最 大 的 特征 移 除 ， 也 就 是 那些 对 评价 函数 
影响 最 小 的 特征 去 掉 。 所 以 ，SBS 算 法 有 以 下 4 个 步骤 : 

e 1 初始 化 k=d， 其 中 d 是 原始 特征 维度 。 

e 2 确定 那个 评价 函数 最 大 的 特征 o 

e 3 MAk PRAE S, k=k-1 ° 

e 4 如 果 Kk 等 于 事先 确定 的 阅 值 则 终止 ; 否则 回 到 步骤 2。 


不 过 ，Ssklearn 目 前 并 没有 实现 SBS 算 法 ， 好 在 算法 简单 ， 我 们 可 以 自己 实现 : 


In [79]: fram sklear base import clone 
fram itertools import combinations 
import numpy as np 
from sklearn cross validation import train test split 
from sklearn metrics import accuracy score 


In [80]: class SBS(): 
def init (self, estimator, k features, scoring-accuracy score, test_size=0. 25, random state-1): 
self.scoring 7 scoring 
self. estimator = clone(estimator) 
self.k features - k features 
self.test size = test size 
self.random state = random state 


def fit(self, X, y): 
X train, X test, y train, y test = train test split(X, y, test size-self.test size, random state-self.random state) 
dim = X train shape [1] 
self.indices = tuple(range(dim)) 
self. subsets_ = [self.indices ] 
score = self. calc score(X train, y train, X test, y test, self.indices ) 
self.scores = [score] 


while dim > self.k features: 
scores - [] 
subsets = [] 


for p in combinations (self. indices , r-dim-): 
score = self. calc score(X train, y train, X test, y test, p) 
scores. append(score) 
subsets. append (p) 


best = np. argmax (scores) 
self. indices_ = subsets[best] 
self. subsets .append(self.indices ) 


dim -= 1 

self. scores_. append(scores [best] } 
self.k score = self. scores_[-1] 
return self 


def transform(self, X): 
retum X[:, self.indices ] 


def calc score(self, X train, y train, X test, y test, indices): 
self.estimator.fit(X train[:, indices]. y train) 
y pred = self.estimator.predict(X test[:, indices]) 
score = self. scoring (y_test, y pred) 
retum score 


在 上 面 的 代码 中 ， 我 们 定义 了 Kk_ features 参数 来 设 定 想 要 得 到 的 特征 子 集 数 。 使 用 
accuracy_score 来 评估 模型 在 特征 子 集 的 表现 。 在 ff 方法 的 while 循 环 内 ， 通 过 
itertools.combination 创 建 特征 子 集 然后 对 其 评估 ， 


现在 我 们 用 KNN 作 为 Estimator 来 运行 SBS 算 法 : 
In [100]: from sklearn. neighbors import ENeishborsClassifier 


In [101]: import matplotlib.pyplot as plt 


In [102]: krn = ENeishborsClaszifier (n neighbors=2) 


In [103]: sbs = SBSiknn, k features=1) 


In [104]: sbs.fit( train std, vy train! 


Out[104]: € main .SBS instance at Ox000000001D272748> 


虽然 SBS 的 人 it 方 法 中 有 分 割 数据 集 的 功能 ， 但 我 们 还 是 为 SBS 提 供 了 训练 集 ， 然 后 供 方 法 将 其 
分 割 为 子 训练 集 和 子 测试 集 ， 而 这 个 子 测试 集 被 称 为 验证 集 (validation dataset) ° 


SBS 算 法 记录 了 每 一 步 最 优 特 征 子 集 的 成 绩 ， 我 们 画 出 每 个 最 优 特 征 子 集 在 验证 集 上 的 分 类 
YE Bg FR: 


In [105]: k feat = [lenik] for k im sbs. subsets | 


In [105]: plt.plot(k feat, sbs.scores , marker- o | 
plt. ylim (0.7, 1.1]) 
plt. ylabel (’ Accuracy’ ) 
plt. xlabel (’ Number of features’ } 
plt. eridí] 
plt. show!) 


Accuracy 
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Number of features 


我 们 可 以 看 到 ， 最 开始 随 着 特征 数目 的 减少 ， 分 类 准确 座 一 直 在 提高 ， 原 因 可 能 是 降低 了 维 
度 诅咒 。 对 于 k={5,6,7,8,9,10,11}， 分 类 准确 率 是 100%， 


我 们 将 最 优 的 5 维度 特征 打印 出 来 看 一 下 : 
In [107]: k5 = listísbs. subsets [8]; 


In [108]: printídf wine.columns[l:][k5]) 


Index { [w Alcohol, u Malic acid’, w Alcalinity of ash’, u Hue’, u Proline], dtype- object’ } 
接 下 来 我 们 使 用 整个 特征 维度 来 检验 KNN 模 型 在 测 | 试 集 的 分 N 米 类 准确 率 


In [108]: knn.fitiX train std, vy train! 


Out[108]: ENeighborsClassifier (algorithm auto’, leaf size=30, metric- minkowski', 
metric params-None, n jobs-l, n neizhbors-?2, p-z, 
weishtz- uniform ) 

In [110]: print( Training accuracy: , knn.score(X train std, y train?) 


(Training accuracy: , 0. 9838709677419355) 


In [111]: print Test accuracy! , kmn. score(¥ test std, y test)! 


(Test accuracy: , 0.804444444444444447] 


及 


T 类 准确 率 98%， 测 试 集 上 分 类 准确 率 94%， 
是 模型 有 一 丢 丢 过 拟 合 。 


^ 


我 们 再 使 用 最 优 的 5 维度 特征 建 模 看 看 : 


In [112]: kmn.fitiX train std[:, k5], y train! 

Out[112]: ENeighborsClassifier (algorithm auto’, leaf size=30, metric- minkowski', 
metric params-None, n jobs-l, n neizhbors-?2, p-z, 
weishtzs- uniform ) 

In [114]: print Training accuracy: , knn.score(X train std[:, k5], vy train]? 


(Training accuracy: , 0.58867 7418354838T5) 


In [115]: printi Test accuracy: , knn.score(X test std[:, k5], » test!) 


(Test accuracy: , 0. 936206288620620629]]| 
使 用 不 到 一 半 的 原始 特征 ， 虽 然 在 训练 集 上 分 类 准确 座 下 降 了 了， 但 是 在 测试 集 上 的 表现 却 提 
高 了 1 并且 此 时 训练 集 和 测试 集 准 确认 相差 不 多 ， 我 们 很 好 地 降低 了 过 拟 合 。 


Note sklearn 中 提供 了 很 多 特征 选择 算法 。 包 括 基 于 特征 和 参数 的 递归 后 向 消除 法 ， 基 于 树 方法 
提供 的 特征 重要 性 的 特征 选择 法 和 单 变量 统计 检验 。 具 体 的 可 以 看 sklearn 文 档 。 


利用 随机 和 森林 评估 特征 重要 性 


在 前 面 一 节 ， 你 学 习 了 如 何 利 用 L1 正 则 将 不 相干 特征 变 为 0， 使 用 SBS 算 法 进行 特征 选择 。 另 
一 种 从 数据 集中 选择 相关 特征 的 方法 是 利用 随机 秩 林 。 


随机 森林 能 够 度量 每 个 特征 的 重要 性 ， 我 们 可 以 依据 这 个 重要 性 指标 进而 选择 也 重要 的 特 
征 。sklearn 中 已 经 实现 了 用 随机 森林 评估 特征 重要 性 ， 在 训练 好 随机 森林 模型 后 ， 直 接 调 用 
feature importances 属 性 就 能 得 到 每 个 特征 的 重要 性 。 


下 面 用 Wine 数 据 集 为 例 ， 我 们 训练 一 个 包含 10000 标 决策 树 的 随机 森林 来 评估 13 个 维度 特征 
的 重要 性 (第 三 章 我 们 就 说 过 ， 对 于 基于 树 的 模型 ， 不 必 对 特征 进行 标准 化 或 归 一 化 ): 


In [81]: from sklearn. ensemble import RandomForestClassifier 
In [82]: feat labels = df wine. columns[1:] 
In [83]: forest = RandomForestClassifier(n_estimators=l0000, random state-O, n jobs--l) 


In [84]: forest.fit(X train, v train! 


Out[B4]: RandomForestClassifisr(bootstrap-True, class weizht-None, criterion- gini’, 
max depth-None, max features-'auto', max leaf nodes=None, 
min samples leaf-l, min samples split=2, 
min weight fraction leaf-0.0, n estimators-lO0Q000, n jobs--1, 
onb score-False, random state-), verbose, warm start-False! 


In [85]: importances = forest.feature importances 
In [85]: indices = np.arzsortíimportances)[::-1] 


In [88]: for f im ranze(X train. shape[ll]): 
print( &2d) S-*s Yf” % (f + 1, 30, feat labels[f], importances[indices[f]]?)? 


1} Alcohol 0. 182483 
2] Malic acid 0. 158610 
3] Ash 0. 150348 
4) Àlcalinity of ash D. 131987 
5) Magnesium D. 106583 
6) Total phenols 0. O07T8243 
T) Flavanoids 0. 060718 
B! Nonflavanoid phenols D. 32033 
9) Proanthocyanins D. 025400 
10) Color intensity 0.022381 
11) Hue 0.022078 
12) OD280/OD315 of diluted wines 0.014645 
13) Proline 0, 013318 


In [80]: plt. title Feature Importance’ ) 
plt. bar (range (¥ train. shapelll), 
importances [indices], 
color- lightblue’, 
align” center’ | 
plt. xticksíranzeíX train. shape[l]), 
feat labels, rotation=30) 
plt. x1imi[-1, X train. shape[1]])} 
plt. tight layoutí) 


plt. show!) 
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Monflavanaid phenols 


OD280/0D315 of diluted wines 


我 们 可 以 得 出 结论 : 5Alcohol' 是 最 能 区 分 类 别 的 特征 。 有 趣 地 是 ， 重 要 性 排名 前 三 的 特征 也 在 
SBS 的 最 优 5 特征 子 集 中 。 


， 所 


sklearn 的 随机 森林 实现 ， 包 括 一 个 transform 方 法 能 够 基于 用 户 给 定 的 阅 值 进行 特征 选 # 
Uu m 


又 

E 
以 如 果 你 要 用 RandomFroestClassifier 作 为 特征 选择 器 ， 这 就 很 easy 了 。 举 个 例子 : 设置 
为 0.15， 会 选择 出 三 个 维度 特征 ，Alcohol、Malic acid 和 Ash。 


In [84]: X selected = forest. transform(X train, thresholdd. 15) 


cr\pythoneT\lib\site-packages\sklearn\utile\ init. .py:393: Deprecationlarning: Function transform 
as feature selectors will be removed in version 0. 19. Use SelectFromMaodel instead. 
warnings. warn(mes, catezory-DeprecationWarninz) 


In [85]: X selected. shape 


Out[85]: (124L, 3L) 


d yt 
IND 72 
本 章 最 开始 我 们 介绍 了 如 何 处 理 缺 失 值 。 在 训练 模型 之 前 ， 我 们 必须 保证 已 经 正确 处 理 分 类 
数据 。 

此 外 ， 我 们 简单 讨论 了 L1 正 则 ， dini 助 我 们 降低 模型 复杂 度 来 避免 过 拟 合 。 另 一 种 移 除 
不 相关 特征 的 方法 是 使 用 序列 特征 选择 算法 来 选择 有 意义 的 特征 。 

在 下 一 章 ， 你 将 会 学 到 另 一 类 降 维 的 方法 : 特征 抽取 。 它 能 够 将 特征 压缩 到 一 个 低 维度 子 空 
间 而 不 是 移 除 茶 些 特征 。 


第 五 草 通 过 降 维 压缩 数据 


在 第 四 草 ， 你 学 习 了 使 用 不 同 的 特征 选择 方法 来 降 维 ， 除 了 特征 选择 ， 另 一 种 降 维 的 方法 是 
特征 抽取 (feature extraction)。 本 章 你 将 会 学 到 三 种 基本 的 方法 ， 帮 助 我 们 摘要 数据 集 的 信 
息 ， 即 将 原始 的 特征 空间 压缩 到 低 纬度 的 特征 子 空间 。 数 据 压缩 是 机 器 学 习 中 的 重要 课题 ， 
它 能 帮助 我 们 存储 和 分 析 当 今 时 代 不 断 涌现 的 大 数据 。 本 草 ， 我 们 主要 讨论 以 下 几 个 内 容 : 


e iW (principal component analysis, PCA), 用 于 无 监督 数据 压缩 
diss A 4! 9t (linear discriminant analysis, LDA), 用 于 监督 降 维 作为 一 种 监督 降 维 
通过 核 PCA 进 行 非 线性 降 维 


s 


PCA 进 行 无 监督 降 维 


类 似 于 特征 选择 ， 我 们 可 以 使 用 特征 抽取 来 减 小 数据 集中 的 特征 维度 。 不 过 ， 不 同 于 特征 选 
择 萌 法 会 保留 原始 特征 空间 ， 特 征 抽取 会 将 原始 特征 转换 /映射 到 一 个 新 的 特征 空间 。 换 匈 话 
说 ， 特 征 抽取 可 以 理解 为 是 一 种 数据 压缩 的 手段 ， 同 时 保留 大 部 分 相关 信息 ( 译 者 注 : 理解 为 
摘要 )。 特 征 抽 取 是 用 于 提高 计算 效 浴 的 典型 手段 ， 另 一 个 好 处 是 也 能 够 减 小 维度 诅 兄 (curse 
of dimensionality)， 特 别 是 对 于 没有 正则 化 的 模型 。 


PCA(principal component analysis, 主 成 分 分 析 ) 是 一 种 被 广泛 使 用 的 无 监督 的 线性 转换 技 
术 ， 主 要 用 于 降 维 。 其 他 领域 的 应 用 还 包括 探索 数据 分 析 和 股票 交易 的 信号 去 噪 ， 基 因数 据 
分 析 和 基因 表达 


PCA 根 据 特 征 之 间 的 相关 性 帮助 我 们 确定 数据 中 存在 的 模式 。 简 而 言 之 ，PCA 的 目标 是 找到 
高 维 数 据 中 最 大 方差 的 方向 ， 并 且 将 高 维 数 据 映 射 到 一 个 新 的 子 空间 ， 这 个 子 空间 的 方向 不 
大 于 原始 特征 空间 。 新 子 空间 的 正 交 轴 ( 主 成 分 ) 可 以 被 解释 为 原始 空间 的 最 大 方差 方向 。 下 图 
中 工 1 ,人 2 是 原始 特征 轴 ， 忆 C1PC2 是 主 成 分 





如 果 使 用 PCA 降 维 ， 我 们 需要 构造 一 个 d*k 维 的 转换 矩阵 人 ， 它 能 将 样本 向 量 T 映 射 到 新 的 k 维 
度 的 特征 子 空间 ，k<<d: 


X 一 ts S ae "PPP nod re IR? 


lxW. Weg?" 


"F — — = = F ;K 
Iis Deaf D zeR 


映射 后 的 子 空间 ， 第 一 主 成 分 包含 最 大 的 方差 ， 第 二 主 成 分 包含 次 大 的 方差 ， 以 此 类 推 ， 并 


且 各 个 主 成 分 persis X)» 


PCA 方 向 极其 容易 S Fil 数据 中 特征 范围 影响 9 所 以 在 运 用 PCA 前 一 定 要 做 特征 标准 化 ， 
才能 保证 每 维度 特征 的 重要 性 等 同 。 


再 详细 讲解 PCA 的 细节 之 前 ， 我 们 KAY 28 PCA 的 步骤 


e 1 将 d 维 度 原始 数据 标准 化 。 

e 2 构建 协 方 关 矩阵 。 

e 3 求解 协 方差 矩阵 的 特征 向 量 和 特征 值 。 

e 4 选择 值 最 大 的 k 个 特征 值 对 应 的 特征 向 量 ，k 就 是 新 特征 空间 的 维度 ，Kk<<d。 
e 5 $] A k4} AE) E 4 IRATE EW © 

6 将 原始 d 维 度 的 数据 集 X， 通 过 映射 矩阵 W 转 换 到 k 维 度 的 特征 子 空间 o 


2 


聊 一 聊 方 差 


本 节 ， 我 们 会 学 习 PCA 中 的 前 四 个 步骤 : 标准 化 数据 、 构 建 协 方差 矩阵 、 得 到 特征 值 和 特征 
ip 


数据 集 还 是 用 第 四 章 过 的 Wine 数 据 集 ， 先 将 原始 Wine 分 割 为 训练 集 和 测试 集 ， 然 后 标准 
化 : 


In [2]: Smatplotlib inline 
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 


In [4]: df wins = pd.read csv https:/ archive. ics. uci. edu/ml/machine-learninz-databasez/wine/wine. data’, header-None) 
In TD li 


In [5]: trom sklearn.cross validation import train test split 
from sklearn. preprocessing import StandardScaler 


In [8]: X, y = df wine.iloc[:, 1:]. values, df winse.iloc[:, 0]. values 

In [T]: X train, X test, y train, y test = train test split/X, y, test size-.3, random state=0) 
In [8]: sc = StandardScaler () 

In [8]: X train std = sc.fit transformlX train) 


In [10]: EX test std = sc. transform(¥ test) 


上 面 的 代码 完成 了 PCA 的 第 一 步 ， 对 数据 进行 标准 化 。 我 们 再 来 看 第 二 步 LEE 
阵 。 协 方差 矩阵 是 对 称 和 矩阵 ，d*d 维 度 ， 其 中 d 是 原始 数据 的 特征 维度 ， 协 方差 矩阵 的 每 个 元 
素 是 两 两 特征 之 间 的 协 方差 。 


举 个 例子 ， 特 征 荆 i 习 的 协 方差 计算 公式 如 下 


其 中 ， 上 分 别 是 样本 中 第 j 维 度 特 征 和 第 Kk 维 度 特征 的 平均 值 。 由 于 我 们 已 经 将 数据 标准 化 
了 ， 所 以 这 tussis 如 果 意味 着 j 和 K 这 两 维度 特征 值 要 么 同时 增加 要 么 同时 误 
减 ， 反 之 ,意味 着 这 两 个 特征 的 值 变化 方向 相反 。 


假设 数据 有 三 维度 特征 ， 协 方差 矩阵 如 下 


协 方差 矩阵 的 特征 向 量 代 表 了 主 成 分 (最 大 方差 的 方向 )， 对 应 的 特征 值 决 定 了 特征 向 量 绝对 值 
的 大 小 。 在 Wine 数 据 集 对 应 的 13*13 的 协 方差 矩阵 ， 我 们 会 得 到 13 个 特征 值 。 


如 何 得 到 特征 值 和 特征 向 量 呢 ? 会 议 线性 代数 课 上 讲 过 的 内 容 : 


LV = AV 


其 中 ， _。 我 们 当然 不 可 能 手 算 特征 值 ， NumPy 提 供 了 linalg.eig 有 函数 用 于 得 到 特征 值 和 特征 


ex : 
In [11]: import numpy as np 
In [12]: cow mat = np.coviX train std.T) 
In [13]: eigen vals, eigen vecas = np.linalz.sigzicov mat) 


In [14]: print!’ inEizenvalues {ns Geigen vala) 


Eigenvalues 


[ 4. 8923083 2. 46635032 1. 42809973 1.01233462 0.84906459 0.60181514 
0. 52201546 O.06414646 Ü. 33051429 Ü. 29595018 (ü.156831254 U.z2143z21z 
0. 2399553 ] 


我 们 先 使 用 np.cov 方 法 得 到 数据 的 协 方差 矩阵 ， 然 后 利用 linalg.eig 方 法 计算 出 特征 向 量 
(eigen_vecs) 和 特征 值 (eigen_vals)。 


由 于 我 们 的 目的 是 数据 压缩 ， 即 降 维 ， 所 以 我 们 只 将 那些 包含 最 多 信息 (方差 ) 的 特征 向 量 ( 主 

成 分 ) 拿 出 来 。 什 么 样 的 特征 向 量 包 含 的 信息 最 多 呢 ? 这 就 要 看 特征 值 了 ， 因 为 特征 值 定义 了 
特征 向 量 的 大 小 ， 我 们 先 对 特征 值 进行 降序 排序 ， 前 k 个 特征 值 对 应 的 特征 向 量 就 是 我 们 要 找 
的 主 成 分 。 


我 们 再 学 一 个 概念 : 7 X SIE SE (variance explained ration)。 一 个 特征 值 的 方差 解释 他 就 是 次 
特征 值 在 特征 值 总 和 的 占 比 : 


了 7 _ 
> 
j=l 
利用 NumPy 提 供 

Jin: ops 

In [16]: 

Ip “LS 

Bm. e d 

Ju H8]: 

In [20]: | plt. 
plt. 
plt. 
plt. 
plt. 
plt. 


Explained variance ratio 


A, 


j 


供 的 cumsum 亏 数 ， 我 们 可 以 计算 累计 和 解释 方差 和 : 


tot = sumleigen vals! 


var exp = [li / tot) for 1 in sortedíeizen vals, reverse=True) ] 


cum var exp = np. cumsum(yar_exp) 


import matplotlib. pyplot as plt 





baríranzeil, 14), var exp, alpha-2.5, alizn- center’, 
label= individual explained variance’ ) 

stepíranzeil, 14), cum var exp, where- mid’, 
label= cumulative explained variance’ ) 

ylabel( Explained variance ratio’) 

xlabeli Principal components’ } 

lezendílac- best’ } 

show] 


— cumulative explained variance 


ENS individual explained variance 


4 6 B 10 12 14 
Principal components 


从 上 面 的 结果 图 我 们 可 以 看 到 第 一 个 主 成 分 占 了 近 40% 的 方 兰 ( 信 息 )， 前 两 个 主 成 分 点 了 60% 
的 方差 。 


很 多 同学 看 到 这 里 ， 可 能 将 方差 解释 率 和 第 四 齐 讲 到 的 用 随机 穆 林 评估 特征 重要 性 联系 起 
来 ， 二 者 还 是 有 很 大 区 别 的 ，PCA 是 一 种 无 监督 方法 ， 在 整个 计算 过 程 中 我 们 都 没有 用 到 类 
别 信息 ! 随机 森林 是 监督 模型 ， 建 模 时 用 到 了 类 别 信息 。 


方 兰 的 物理 含义 是 对 值 沿 着 特征 轴 的 传播 进行 度量 。 


特征 转换 


得 到 特征 向 量 后 ， 接 下 来 我 们 就 可 以 对 原始 特征 进行 转换 了 。 本 节 我 们 先 对 特征 值 进 行 
ti bngieidekn a 特征 子 
JR] o 
先 对 特征 值 排序 : 
In [23]: eigen pairs = [ínp. absteigen vals[i]l), eigen vees[:, i1]) for i in ranzetlen(eizen vals))] 
In [25]: eigen pairs.sort(reverse-True 
接 下 来 ， 我 们 选择 最 大 的 两 个 特征 值 对 应 的 特征 向 量 ， 这 里 只 用 两 个 特征 向 量 是 为 了 下 面 画 
图 方便 ， 在 实际 运用 PCA 时 ， 到 底 选 择 几 个 特征 向 量 ， 要 考虑 到 计算 效 认 和 分 类 器 的 表现 两 
个 方面 ( 译 者 注 : 第 用 的 选择 方式 是 特征 值 子 集 要 包含 90% 方 差 ): 
In [28]: w = np. hstackt teigen pairs[O][1]l:, np. newaxis], 
eigen_pairs[1][1][:, np.newaxisl?? 
In [27]: | print( Matrix W: \n’, w 


ILE > RELE T —413205 05 PRAT AE E W © 7A 


CMatrix V: Sn, array([[ 0. 14669811, 
. 242168898], 
. 28638484]. 
. 06468718], 
. 22995385] , 
. 09363991], 
. 01088622], 
. 01870216], 
. 03040352], 
. 54527081], 
. 27924322], 
.174365 ], 
. 883154611 12? 


的 新 样本 : 


m 


Pir bees 


Out [28] : 


= xW 


era ea ese es r-—3 r3 eo r3 r3 r3 


[-0. 


D åC Um RU GP M NO EE LA Um O O O O 


24224004, 
. O299S442, 
.2DD 3002, 
120797 Fz, 
. 60954455, 
. 425204806, 
. SOB 34906, 
. 605 72219, 
. 09869191, 
. 3002939, 
. 60641154, 
et 


X train_std[0]. dot w) 


array([ 2. 59891628, 


0. 00484089 ]3 


后 对 样本 (113 维 度 ) 进 行 


0. 5041 079], 


映射 ， 就 能 


得 到 2 维度 


直接 对 原始 数据 (124*13) 映 射 : 


X'= XW 


In [23]: | train pea = X train std dottw) 
特征 维度 降 到 2 维度 后 ， 我 们 就 可 以 用 散 点 图 将 数据 可 视 化 出 来 了 : 
In. [35]: [Boel E To B E 
In. [886]: mar N e] 


In [S38]: for l, c, m in zipí(rp.uniqgue(y trai, colors, markers): 
plt.scatter(X train pca[y trairc—l, ül, 
X train pealy_train—l, 1], 
c-c, label-l, marker-nm) 
plt. xlabel CPC 1'? 
plt. ylabel CPC 2') 
plt.legzend(loc- lower left’) 
plt. show Q 





从 上 图 可 以 看 到 ， 数 据 在 x 轴 ( 第 一 主 成 分 ) 上 要 比 y 轴 (第 二 主 成 分 ) 分 布 更 广 ， 这 也 符合 方差 角 
释 率 的 结果 。 数 据 降 维 后 ， 直 和 觉 :上 使用 线性 分 关中 就 能 外交 数据 分 类 ， 


scikit-learn 中 的 PCA 


上 一 小 节 我 们 详细 讨论 了 PCA 的 步骤 ， 在 实际 应 用 时 ， 一 般 不 会 使 用 自己 实现 ， 而 是 直接 调 
用 Ssklearn 中 的 PCA 类 ，PCA 类 是 另 一 个 transformer 类 : 我 们 先 用 训练 集训 练 模型 参数 ， 然 后 
统一 应 用 于 训练 集 和 测试 集 。 


下 面 我 们 就 是 用 sklearn 中 的 PCA 类 对 Wine 数 据 降 维 ， 然 后 调用 逻辑 斯 菇 回归 模型 分 类 ， 最 
将 决策 界 可 视 化 出 来 : 


In [84]: 
In [A]: 
Iu [42]: 
In T43]: 
In 44]: 
Iu 3515s 
lm [46]; 
ln [4r]: 

Qut [47] : 
Im [48]: 


from matplotlib.colors import ListedColormap 


def plot decision regions (4, y, classifier, resolution=0. 02): 
ret marker generator ang color map 
Markers =: tee Wo e sc NE) 
colors = (red. “blue,  lightegreen , “gray. cyan 
cmap = ListedColormapicolors[:lenirmp. unique y?) ]? 


Anlot tha gacision surface 

xl min, xi max = X[:, O].minO - 1, X[:, O].maxO +1 

x2 min, xz max = X[:, 1].minO - 1, X[:, 1].max +1 

xxl, xx2 = np.meshzridinp. aranze (xl min, xl max, resolution), 
np.aranzeixzZ min, x2 max, resolution!) 

Z = classifier. predict inp. array([xxl.ravelO, xxzZ.ravelO D.T 

Z = Zreshape(xx1. shape) 


plt. contourf (xxl, xx2, Z, alpha-0.4, cmapecmap) 
plt. xlim(xxl.min@}, xxl.maxQ? 
plt. ylim(xx2.min(Q), xx2.maxQ? 


Rat class sampiac 
for idx, cl in emmerate(m. unilque (y): 
ee -— «ai mE TI 
alpha-0.8, c-cmap(idx), 
narker-markers[idx], labael-cl) 


from sklearn.linear model import LozisticRezression 


from sklearn. decomposition import FCA 


pea = PCA(n components=2) 


lr = LoglsticRezresslonQ 


X train pca = pea. fit transform(X train std) 
X test pea = pea. transform(Z test std) 


lr. fit(E train pea, y tralrm) 


LogisticRegression(C=1.0, class weizht-None, dual=False, fit intercept-True, 
intercept scaling-1l, max lter-100, multi class- ovr’, n jJobz-1, 
penalty-' 12', random state-None, solver- liblinear’, tol-0.0001, 
verbose-Üü, warm start=False) 


plot decision regions (2 train pea, y train, classifier=lr) 
olt. xlabel © PCI’) 

olt. ylabel i PCZ ) 

plt. legend(loc=’ lower left’) 

plt. show O 


特征 转换 


执行 上 面 的 代码 ， 我 们 应 该 得 到 如 下 的 决策 界 : 





PCI 


4o RAR AF i MARAT A OG SE LOS PCA SI 85 3 A 4 3 Fl sklearn ? PCAAE £1 FER > PR T8 
图 看 起 来 是 镜像 关系 | peat pie en yn ， 如 果 你 实在 看 
不 惯 ， 只 需要 将 其 中 一 个 得 到 的 特征 向 量 *(-1) 即 可 。 还 要 注意 特征 向 量 一 般 都 要 归 一 化 。 


我 们 再 看 看 决策 界 在 测试 集 的 分 类 效果 : 


In [50]: plot decision regions 以 test pca, y test, classifler-lr) 
olt. xlabel © PC1') 
olt. ylabel € PC2’ ) 
plt.legzend(loc- lower left’) 
plt. show © 


PC2 





啊 哈 | 测试 集 仅 有 一 个 样本 被 错误 分 类 ， 效 果 很 棒 。 
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怎样 用 sklearn 的 PCA 得 到 每 个 主 成 分 (不 是 特征 ) 的 方差 解释 率 呢 ?很 简单 ， 初 始 化 PCA 时 ， 
ncomponents 设 置 为 None， 然 后 通过 explaineq variance ratio 属 性 得 到 每 个 主 成 分 的 方差 解 


In [51]: pea = PCA(n conponents-Wone) 
In [52]: X train pea = pea. fit transform(X train std) 


In [53]: pea. explained variance ratio. 


Out[53]: arrayi[ 0.37329648, O.18818926, 0.10896701, O.07724389, 0. 06478590, 
0. 04882014, 0. 03986936, O.02521914, O.02258181,  ü.U18309324, 
0. 01635336, 0. 01284271, 0. 00642076]) 


此 时 n_components=None, 我 们 并 没有 做 降 维 。 


LDA 进 行 监督 数据 压缩 


LDA(linear discriminant analysis, 线性 判别 分 析 ) 是 另 一 种 用 于 特征 抽取 的 技术 ， 它 可 以 提高 
计算 效率 ， 对 于 非 正则 模型 也 能 减 小 过 拟 合 。 


虽然 LDA 的 很 多 概念 和 PCA 很 像 ， 但 他 俩 的 目标 不 同 ，PCA 目 标 是 找到 正 交 的 主 成 分 同时 保 
持 数 据 集 的 最 大 方差 ，LDA 的 目标 是 为 每 个 类 单独 优化 ， 得 到 各 个 类 的 最 优 特征 子 集 。PCA 
EE ATR Hs P ^ We ORG MARG ^ SHEER AANA 
个 字 ， 可 能 你 会 认为 对 于 分 类 任务 ，LDA 要 比 PCA 效 果 更 好 ， 但 实际 却 不 是 这 样 ， 在 某 些 分 
类 任务 情境 下 ， 用 PCA 预 处 理 数据 得 到 的 结果 要 比 LDA 号 ， 上 比如， 如果 每 个 类 含有 的 样本 比 
较 少 。 


画 出 了 对 于 二 分 类 问题 ，LDA 的 一 些 概念 : 





x 轴 的 线性 判别 (LD 1), 很 好 地 将 两 个 正 态 分 布 的 类 别 数据 分 离 。 虽 然 y 轴 的 线性 判别 (LD 2) 捕 扣 
了 数据 集中 的 大 量 方差 ， 但 却 不 是 一 个 好 的 线性 判别 ， 因 为 它 没有 捕 提 任何 与 类 别 判 别 相关 
的 信息 。 


LDA 的 一 个 假设 是 数据 服从 正 态 分 布 。 同 时 ， 我 们 也 假设 各 个 类 含有 相同 的 协 方差 矩阵 ， 每 
个 特征 都 统计 独立 。 即 使 上 盟 实 数据 可 能 不 服从 上 面 的 某 几 个 假设 ， 但 LDA 依 然 有 具有 很 好 的 表 
I, o 


在 学 习 LDA 内 部 原理 前 ， 我 们 先 将 它 的 几 大 步骤 列 出 来 : 


1， 将 d 维 度 原 始 数据 进行 标准 化 

1， 对 每 一 个 类 ， 计 和 萌 d 维 度 的 平均 向 量 . 

1. #93 % 14 (between-class)#k 4 424% À pfo X A (within-class) #8 42 Ow, 
1. d EdERESW Seay ie he ty E de EA, 


1. 选择 值 最 大 的 前 k 个 特征 值 对 应 的 特征 向 量 ， 构 建 d*d 维 度 的 转换 矩阵 他 每 一 个 特征 
向 量 是 全 的 一 列 . 
1. 使 用 和 矩阵 俩 "将 原始 数据 集 映射 到 新 的 特征 子 空间 . 


Note 我 们 在 应 用 LDA 时 做 出 的 假设 是 : 特征 服从 正 态 分 布 并 且 彼 此 独立 ， 每 个 类 的 协 方差 矩 
阵 都 相同 。 现 实 中 的 数据 当然 不 可 能 丨 的 全 部 服从 这 些 假 设 ， 但 是 不 用 担心 ， 即 使 某 一 个 臣 
至 多 个 假设 不 成 立 ，LDA 也 有 不 俗 的 表现 .(R.O.Duda, P.E. Hart, and D.G.Stork. Pattern 
Classification. 2nd.Edition. New York, 2001). 


Th FL BK FE NE 


数据 标准 化 前 面 已 经 说 过 了 ， 这 里 就 不 再 讲 了 ， 我 们 说 一 下 如 何 计 算 平均 向 量 ， 然 后 用 这 些 
平均 向 量 分 别 构建 类 内 散 点 矩阵 和 类 间 散 点 矩阵 。 


每 一 个 平均 向 量 7mai 存 储 了 类 别 i 的 样本 的 平均 特征 值 Um: 


LY 


"n. red 


Wine 数 据 集 有 三 个 类 ， 每 一 个 的 平均 向 量 : 


/ 4 alcohol 


/ I; malic acid | 


ipis] m i€11,2,3 


/ t , proline 


In [54]: np. set_printeptions (precisicre4) 
In [55]: | mean vecs = [] 


In [56]: | for label in ranze(l, 4: 
mean vecs. append inp. mean train std[y train — label], axis=0)) 
print MV Ys: Wsin % (label, mean vecs[label-1]? 


MV 1: [ 0.9259 -0.3081 0.2592 -0. 7989 0.3039 0.9808 1.0515 -0.6306 0.5354 
0.2208 0.4855 0.798 1.2017] 


MV 2: [-0. 8727 -0. 3854 -0. 4437 0.2481 -0.2409 -0.1059 0.0187 -0.0164 0.1095 
-0. 8796 0.4892 0.2776 -0. TO16] 


MV 3: [ 0. 1637 0.8929 0.3249 0.5658 -0.01 -0.9499 -1.228 0.7486 -0. 7852 
0. 979 -1.1698 -1. 3007 -0. 3912] 


有 了 平均 向 量 ， 我 们 就 可 以 计算 类 内 散 点 矩阵 3TT 


DW 就 是 每 个 类 的 散 点 矩阵 人 总和。 


In [57]: d» 13 saree 
In [58]: SW = np.zerost((d, di 


In [59]: for label, mv in zip(íranzs(, 4), mean vecs): 
class scatter = np. zeros((d, di) 
for row in X[y—label]: 
row, nv = row.reshape(d, 1), mv.reshapeí(d, 1) 
class scatter += (row-mv). dotü(row-mv).T) 
SW += class scatter 


print( Within-class scatter matrix: Wsx'üz' «(5 W.shape[O], S W.shape[1]?? 


Within-class scatter matrix: 13x13 


当 我 们 计算 散 点 矩阵 时 ， 我 们 做 出 的 假设 是 训练 集中 的 类 别 时 均匀 分 布 的 。 实 际 情况 往往 并 
不 是 这 样 ， 比 如 我 们 将 Wine 训 练 集 各 个 类 别 个 数 打印 出 来 : 


In [60]: print” Class label distribution: 4s’ “np. bincount (y_train) [1:]) 


Class label distribution: [40 49 35] 


PR VA ZEAE BE KH) HIS ABRESUS * RBM BH KG Bade al Sw o RR 3 
点 矩阵 全 i 除 以 各 个 类 别 内 样本 数 改 i 我们 实际 上 是 在 计算 协 方差 矩阵 FARRAR AE 
阵 的 归 一 化 结果 : 


~=—S, = 一 (x—m,)(x—um, ) 


i iYi xeD, 


In [81]: d» 18 AEE 
In [62]: |S W = np.zerosttíd, di? 


In [63]: for label, mv in zipiíranze(l, 4), mean vecs): 
class scatter = np. cov(X train std[y_train—label]. T? 
& W += class_scatter 
print( Scaled withir-class scatter matrix: sxs S(S_W. shapelo], Ss YW. shapeli]}) 


Scaled within-class scatter matrix: 13x13 


AFB a BUG 85 R PLC EEE > RMT RIERA RAS p 


= YN, (m,—m)(m,—m ) 


i=] 
AP > m EE e | A RPT AOE AR 9 FF AEF E E 
In [88]: mean overall = np.mean(X train std, axis=0) 
In [89]: |d - 13 
In [90]: | E B = np.zeresttd, d 


In [81]: for i, mean vec in enumerate (mean vecs) : 
n= ¥[y—itl, :]. shape[] 
mean vec = mean vec. reshaped, 1) 
mean overall = mean overall.reshapeíd, 1) 
S B + rt (mean vec — mean overall).dot(ümsean vec — mean overall).T) 


In [92]: | print Betweer-class scatter matrix: Wex&s' «(5 E.shape[O], 5S E.shape[1])? 


Between-class scatter matrix: 13x13 


为 特征 子 空间 选择 线性 判别 式 


ere 和 PCA 很 像 了 。 不 同 点 是 PCA 分 解 协 方 兰 矩阵 得 到 特征 值 和 特征 向 量 ，LDA 
fg ow "SB 得 寻 到 特征 值 和 特征 向 量 : 


Teh 


3 


In [93]: eigen vals, eigen vecs = np.linalz.eiz/np.linalz.inví(S W).dot(S E? 
得 到 特征 值 后 ， 对 其 降序 排序 : 


In [94]: | eigen pairs = [ínp.absíelgzen vals[1]), eigen vecs[:, iD 
for i in range(len(eigen vals))] 


In [95]: eigen pairs = sorted(elgzen pairs, key-lambda k: k[O], reverseTrue!} 


In [96]: print Eizenvalus in decreasing order: in’) 
for elgen val in elgen pairs: 
print (eigen val [o]) 


Figenvalus in decreasing order: 


43. ü] Bagsds48 
422d, UBO981 aod 

T. 60401171 506e—-14 
fear) fse25e-14 
. 40594825681 e-14 
.40so048 25681 e-1 4 
.B421 7094504e-1 4 
6277 fl 296dhe—-1 4 
6277 fl 29edhe—l 4 
2455505 9528e-15 
. 44550599 428e—15 
. a2 0] 856ZZ84e-15 
. 11070860452e-15 


D3 CT C^ cC» Lr =e Ai Da PPO cJ 


我 们 可 以 看 到 只 有 两 个 特征 值 不 为 0， 其 余 11 个 特征 值 实 质 是 0， 这 里 只 不 过 由 于 计算 机 浮 点 
表示 才 不 为 0。 极 端 情况 是 特征 向 量 共 线 ， 此 时 协 方差 矩阵 秩 为 1， 只 有 一 个 非 0 特征 值 。 


为 了 度量 线性 判别 式 (特征 向 量 ) 捕 捉 到 了 多 少 的 类 判别 信息 ， 我 们 画 出 类 似 方差 解释 率 的 线性 
判别 图 : 


In [97]: tot = sumteigen vals. real) 
In [98]: diser = [ü/tot) for i in sorted(eigzen vals.real, reverse-True)] 
In [99]: cum discr = np. cumsun (discr) 


In [100]: | plt. bar(range(1, 14), discr, alpha=0.5, aligre’ center’, label-'individual "discriminabllity ') 
plt. step rangel, 14), cum diser, where= mid , label=’ cumulative “discriminability’’ } 
plt. ylabel ( “discriminability” ratio’ } 
plt. xlabel (Linear Discriminants') 
plt. ylimt[-0. 1, 1.1] 
plt. lezend(loc- best’ } 
plt. show © 


我 们 可 以 看 到 前 两 个 线性 判别 捕捉 到 了 Wine 训 练 集中 100% 的 有 用 信息 : 


— cumulative "discriminability" 


ENS individual "discriminability" 


"discriminability" ratio 





0 2 4 6 B 10 12 14 
Linear Discriminants 


然后 由 这 两 个 线性 判别 式 来 创建 转换 矩阵 全 


In [101]: w= mp. hstack(€(eigen pairs[O][1][:, np. newaxis].real, 
eigen palrs[il[ill:, np. newaxis]. real) 


In [102]: | print Matrix Wn , vw) 


i Matrix W:Àn , array([[-0. 0707, -0. 3778], 
[ 0. 0359, -0. 2223], 
[-0. 0263, -0. 3813], 

[ 0.1875, 0, 2955], 
[-0. 0033, | 0.0143], 
[ 0.2328, 0.0151], 
[-0. 7719, 0. 2149], 
[-0.0803, 0. 0726], 
[ 0. 0896, 0.1787], 
[ 0.1815, -0. 2909], 
[-0. 0631, 0. 2376], 
[-0. 3794, 0. 0867], 
[-0. 3355, -0.586 ]]D? 
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Ke 始 数 据 映射 到 新 特征 2 间 
有 了 转换 矩阵 他 ,我们 就 可 以 将 原始 数据 映射 到 新 的 特征 空间 了 : 


X'= XW 


In [103]: X train lda = X train std dottw) 
In Hos: Bae ee | | 
In [i05]: Bee | 


In [107]: for l, c, m in zip(rp.uniqgue(y train), colors, markers): 
plt.scatter(X train lda[y trairc—l, ül, 
X train ldaly_train—l, 1], 
c-c, label-l, marker-nm) 
plt. xlabel CLD 1'? 
olt. ylabelCLD 2') 
plt.legzend(loc- upper right’) 
plt. show Ù 


新 数据 集 ， 明显 线性 可 分 : 





调用 sklearn 中 LDA 


我 们 通过 一 步 步 地 实现 LDA 来 加 深 理 解 ， 现 在 看 看 sklearn 中 如 何 使 用 现成 的 LDA : 


原始 数据 映射 到 新 特征 空间 


In [108]: from sklearn.lda import LDA 


c:iVXpythonZTXlibsite-packagses*ssklearnMlda.py:4: DeprecationWarninz: lc 
is in 0.17 and will be removed in 0.19 
“in 0.17 and will be removed in 0.19”, DeprecationWarninz! 


In [109]: lda = LDA(n componentz-2) 


In [110]: X train lda = lda. fit transform(X train std, y traim 


Xe $B BS [OFS $8 


In [221]: BE 


LogisticRegression() 


In [1121]: | ise Nise a NUES ON ba ID) 


In [113]: plot_decision_regions(¥ train lda, y train, classifier-lr? 
plt. xlabel (LD 1'? 
plt. ylabel CLD 2°) 
plt.legzend(loc- upper left’) 
plt. show Ù 


有 一 个 样本 被 错 分 类 : 





LD 1 


如 果 降 低 正 则 项 的 影响 ， 完 全 正确 分 类 训练 集 。 当 然 了 ， 过 拟 合并 没有 什么 好 处 。 我 们 看 一 
下 现在 模型 对 测试 集 的 分 类 效果 : 


125 


In [115]: X test lda = lda. transform(X test std) 


In [i118]: | plot decision rezions(X test lda, y test, classifier-lr) 
plt. xlabel (LD 1'? 
plt. ylabel Č LD 2'? 
plt. legendiloc= upper left’) 
plt. show Q 





Wow ! 100% 的 准确 率 。 
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使 用 核 PCA 进 行 非 线性 映射 


许多 机 器 学 习 算 法 都 有 一 个 假设 : 输入 数据 要 是 线性 可 分 的 。 感 知 机 算法 必须 针对 完全 线性 
可 分 数据 才能 收敛 。 考 虑 到 噪音 ，Adalien、 人 逻辑 斯 蒂 回 归 和 SVM 并 不 会 要 求 数据 完全 线性 可 


但 是 现实 生活 中 有 大 量 的 非 线 性 数据 ， 此 时 用 于 降 维 的 线性 转换 手段 比如 PCA 和 LDA 效 果 就 
不 会 太 好 。 这 一 节 我 们 学 习 PCA 的 核 化 版 本 ， 核 PCA。 这 里 的 " 核 "与 核 SVM 相 近 。 运用 核 
PCA， 我 们 能 将 非 线 性 可 分 的 数据 转换 到 新 的 、 低 维度 的 特征 子 空间 ， 然 后 运用 线性 分 类 器 
解决 。 


Linear vs. nonlinear problems 





TK By BAP AK ARIA 
还 记得 在 核 SVM 那 里 ， 我 们 讲 过 解决 非 线 性 问题 的 手段 是 将 他 们 映射 到 新 的 高 维特 征 空间 ， 
此 时 数据 在 高 维 空间 线性 可 分 。 为 了 将 数据 ”映射 到 高 维 k 空 间 ， 我 们 定义 了 非 线 性 映射 函数 
ó:R^ —R* (k»»d) 
RATARA BAY AERE HOS : 通过 创造 出 原始 特征 的 一 些 非 线性 组 合 ， 然 后 将 原来 的 d 维 


度数 据 集 映射 到 k 维 度 特征 空间 ，d<k。 举 个 例子 ， 特 征 向 量 ，，x 是 列 向 量 包 含 d 个 特征 ， 
d=2， 可 以 按照 如 下 的 规则 将 其 映射 到 3 维度 特征 空间 : 


a Le 


12 fan 2l 
f= X " | 2) X5 5-45 


—— € 过 核 PCA 的 非 线 性 映射 ， 将 数据 转换 到 一 个 高 维度 空间 ， 然 后 在 
高 维度 空间 ep 据 映 射 到 一 个 比 原来 还 低 的 空间 ， 最 后 就 可 以 用 线性 

pe o 不 过 ， 这 种 方法 涉及 到 两 次 映射 转换 ， 计 算 成 本 非常 高 ， 由 此 引出 了 核 

技巧 (kernel trick) ° 

使 用 核 技 巧 ， 我 们 能 在 原始 特征 空间 直接 计算 两 个 高 维特 征 向 量 的 相似 性 (不 需要 先 特征 映 

射 ， 再 计算 相似 性 )。 

在 介绍 核 技巧 前 ， 我 们 先 回顾 标准 PCA 的 做 法 。 我 们 按照 如 下 公式 计算 两 个 特征 k 和 j 的 协 方 

E: 


=o Jon 


In 
由 于 我 们 对 数据 已 做 过 标准 化 处 理 ， 特 征 平 均值 为 0， 上 式 等 价 于 : 


| H (i) 


O ix = 7 xU 


r 


同样 ， 我 们 能 够 得 到 协 方差 矩阵 : 


^ d) LT 
2 n 2? 


Bernhard Scholkopf(B. Scholkopf, A.Smola, and K.R. Muller. Kernel Principal Component 
Analysis. pages 583-588, 1997) 得 到 了 上 式 的 泛 化 形式 ,用 非 线 性 特征 组 合 | 替换 原始 数据 集 
两 个 样本 之 间 的 点 乘 : 


为 了 从 协 方差 矩阵 中 得 到 特征 向 量 ( 主 成 分 )， 我 们 必须 求解 下 面 的 等 式 : 


ar = Av 


n3 
一 三 aí "9 Jo( x? ) y= eal v) 


其 中 ， 是 协 方 差 矩 阵 的 特征 值 和 特征 向 量 ， 的 求法 见 下 面 几 段 内 容 。 
BRANT RAF AK FETE : 


首先 ， 我 们 写 出 协 方差 矩阵 的 矩阵 形式 ， 是 一 个 n 冰 的 矩阵 : 


T 


I li XV d(x 
2, , 2,9 (s | ; ) (X) 
我 们 将 特征 向 量 写 作 : 


SIN gd s(xY 
i nee (x | ó( ) a 


等 式 两 边 左 乘 


这 里 的 就 是 相似 性 ( 核 ) 矩 阵 : 


K =9(X)9(X) 


回忆 核 SVM 我 们 使 用 核 技 巧 避免 了 直接 计算 
k(x", 2 )) = p(x” ) ox”) 


IA PCA FUE T BR AB AE PCAAR A T E ih TREE > ATI AK BARAT Ho PIA t ART 
以 把 核 函 数 ( 简 称 ， 核 ) 理 解 为 计算 两 个 向 量 点 乘 的 函数 ， 结 果 可 看 做 两 个 向 量 的 相似 度 。 


5$ JE 89 4 BRA: 


e FRAG : 


站 | F F , a Ti 
k(x x) (x97 X +0) 
> GEN MÀ ^ Pre JE P OE I d8 Ax o 


e 双 曲 正切 (Sigmoid) 核 : 


k p, x) | = tanh UE ) 0 | 























E e a 
k ( x) xU) | = exp| 一 - 
( SUC 
It is also written as follows: 
k ( x ui 一 exp[-7 x” — x) | 
现在 总 结 一 下 核 PCA 的 步骤 ， 以 RBF 核 为 例 : 
1 计算 核 (相似 ) 矩 阵 K， 也 就 是 计算 任意 两 个 训练 样本 : 
k [^ ad 一 xp[-7 |] — x) | 
得 到 K 
K| ct) e K| x). Ko) K| x. d 
«( 2). «e (x). x) K(x, «n 
K = 
(x! ) y! | eee) [s^ ud 


举 个 例子 ， 如 训练 集 有 100 个 样本 ， 则 对 称 核 矩阵 K 的 维度 是 100*100 。 


2 对 核 矩 阵 K 进 行 中 心 化 处 理 : 
| 
K'-K-1 K — Kl, «1 Kl, 


其 中 ,1 是 nm*n 的 矩阵 ，n= 训 练 集 样本 数 ，l1n 中 每 个 元 素 都 等 于 


3 计算 的 特征 值 ， 取 最 大 的 k 个 特征 值 对 应 的 特征 向 量 。 不 同 于 标准 PCA， 这 里 的 特征 向 量 
并 不 是 主 成 分 轴 。 


第 2 步 为 什么 要 计 站 ? 因为 在 PCA 我 们 总 是 处 理 标 准 化 的 数据 ， 也 就 是 特征 的 平均 值 为 0。 


当 我 们 用 非 线 性 特征 组 合 ”替代 点 乘 时 ， 我 们 并 没有 显示 计算 新 的 特征 空间 也 就 没有 在 新 特 


征 空间 做 标准 化 处 理 ， 我 们 不 能 保证 新 特征 空间 下 的 特征 平均 值 为 0， 所 以 要 对 K 做 中 心 化 。 


用 Python 实现 核 PCA 


上 一 节 我 们 讨论 了 核 PCA 的 原理 。 现 在 我 们 根据 上 一 节 的 三 个 步骤 ， 自 己 实现 一 个 核 PCA 。 
借助 SciPy 和 NumPy， 其实 实现 核 PCA 很 简单 : 


In [85]: from scipy.spatial.distance import pdist, squareforn 
In [86]: from scipy import exp 

In [87]: from scipy.linalz import eigh 

In [88]: import numpy as rp 


In [89]: def rbf kernel pcatX, gamma, n components): 


AY a 


REF kernel PCA implementation. 


X: shape-[n samples, n_features] 
gamma: float, Tuning parameter of the REF kernel 


n components: int. Number of pricipal components to return 


AY aw 


Calculate parivise sguaread Fuciigssn distances 
sq_dists = pdist(X, 'sgeuclidean ? 


JAConvart pairwise distances into s square matrix 
mat sq dists = squareform(sq dists) 


ACompute the symmatric Karnal atrix. 
E = exp(-gamma * mat sq diste) 


Manter the karnel matrix 

N = E. shape[o] 

one n = np.ones((N, Wi) ZN 

E-K-onen det (© — E. doettone rn) + one n. dotik}. dot(one ry) 


A&bfaining eiganparis from the 下 
elzvals, eizvecs = eigzh(E 


# Collect the top k aiganvactars(projacted sampilas) 
X pc = rp. column stack((eigvecs[:, -i] for i in ranze(1, n components + 12)) 


return X pc 


2 


RBF 核 PCA 的 一 个 缺点 是 需要 人 工 设置 ” 值 ， 调 参 不 易 。 第 六 章 我 们 会 介绍 调和 参 技巧 。 


例 1 FAG LAE 27-3] 


现在 我 们 创建 一 个 非 线 性 数据 集 试 一 下 rbf kernel. pca 的 效果 ， 数 据 集 100 个 样本 ， 每 个 样本 
两 维度 特征 ， 数 据 分 布 呈 两 个 半月 形 : 


In [84]: from sklearn. datasets import make moons 
In [85]: X, y = make moons tn samples-100, random state-123) 


In [88]: |pilt. scatter ti yt 0l. xl. 1]. 
color="red’, marker= ', alpha=0. 5) 


plt. scatter E [v—1, 0], i=], 1], 
color=" blue, marker- o', alpha-0.5) 


plt. show Ù 





每 个 半月 数据 是 一 类 e 


显然 图 中 的 数据 不 是 线性 可 分 的 ， 我 们 的 目标 是 通过 核 PCA 将 "曲线 "映射 到 "直线 "上 ， 然 后 就 
可 以 用 线性 分 类 器 了 。 


我 们 先 看 一 下 如 果 用 标准 PCA 处 理 ， 会 得 到 什么 结果 : 


In [87]: from sklearn. decomposition import PCA 
In [88]: scikit pea = POA(n components=2) 
In [88]: X spea = scikit pca.fit transform Ñ 


In [90]: | fig, ax = plt.subplotsinrows-1, ncols-2, figslze-(T,3)) 


axl]. scatter (2 spca[y—0, 0], X spcaly—o, 1], 
color= red , marker-' ", alpha-0. 5) 

ax[ġ]. scatter te spca[ly—1l, 0], X_spcaly—l1, 1], 
color” blue’, marker='o', alpha=0. 5) 


axli]. scatter ¥ spealy—0, 0], np. zeros ((50, 1)) 40.02, 
color= red’, marker- ", alpha=0. 5) 


ax[1].scatter(X spealy—1, 0], mp. zeres((50, 19)-0. 02, 
color= blue’, marker='o', alpha=0. 5) 


axl]. set_xlabel ( PC1'? 
axl]. set_ylabel € PCZ} 
axll].set_yvlim([-1, 1]} 
ax[1]. set_yticks ([]} 
axl1].set_xlabel ( Poi’} 
plt. show Ô 
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很 显然 ， 用 标准 PCA 降 维 后 的 数据 无 法 用 iin 。 还 要 注意 右边 子 图 中 的 蓝 线 我 们 
故意 下 调 了 一 点 点 ， 红 线 上 人 调 了 一 点 点 ， 这 是 为 了 清楚 地 观 罕 他 们 的 重合 部 分 


现在 我 们 尝试 rbf_kernel pca， 看 看 能 不 能 解决 非 线 性 数据 : 


In [91]: from matplotlib. ticker import FormatStrFormatter 
In [92]: XX kpca = rbf kernel pca(X, gamma=15, n components=2) 


In [96]: flg, ax = plt.subpletsinrows-l, ncols=2, fiesize—(10, £) 
ax[0]. scatter(X kpeca[y—0, 0], X kpea[y—0, 1], 
color= red , marker-  ', alpha-0. 5) 
ax[0].scatter(X kpca[y—1, 0], X kpcal[y—1, 1], 
color="blue’, marker- o', alpha=0.5) 


ax[1].scatter(X kpca[y—20, 0], np.zeros((50,12240. 02, 
color- red , marker-' ',alpha-0. 05) 

ax[1]. scatter(X kpcaly—1, 0], np.zerost(50,1)2-0. 02, 
color="blue’ ,marker-'o', alpha=0. 5) 

ax[0]. set_xlabel ( PCi'? 

ax[0]. set ylabel( PC2') 

ax[1].set ylimé&[-1, 1]? 

ax[1]. set. ytickst[ D 

ax[1]. set_xlabel € PC1') 

ax[O0]. xaxis.set major formatterFormatStrRormatter( 4&0.1f')) 

ax[1]. xaxis.set major formatter(FormatStrFormatteriü €«0.1f')) 


plt. show Q 


我 们 可 以 看 到 经 过 核 PCA 处 理 后 的 数据 线性 可 分 了 ， 所 以 可 以 直接 用 线性 分 类 器 来 训练 一 个 
合适 的 模型 。 
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RBF 核 PCA 的 缺点 就 是 需要 人 工 设 定 ，， 这 个 值 不 是 凭空 瞎 想 的 ， 而 是 要 做 实验 确定 ， 在 第 
六 章 ， 我 们 会 讨论 调 参 的 技巧 。 


例 2 4r & Fl «5 [8] Bd 


上 一 节 我 们 创建 了 一 个 半圆 形 的 数据 ， 然 后 可 以 用 核 PCA 线 性 分 离 ， 我 们 再 来 看 另 一 个 有 趣 
的 非 线性 数据 集 : 


Irn 


In 


In 


[a7]: 


[98]: 


[99]: 


from sklearn. datasets import make circles 


X, y = make circlesin samples-1000, random state-123, nolse-0.1, factor=0. 2) 


plt. scatter diy Ol), rhe 1], 

color= red, marker= ', alpha=0. 5) 
ple scatter h1, 0| =i 1]: 

color= blue , marker- o', alpha=0.5) 


plt. show Ô 
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In [i100]: scikit pca = PCÀ(n componentz-2) 


In [101]: X spca = scikit pca.fit transform (Q2 


In [102]: | fig, ax = plt. subplots(nrows=1, ncols-2, figsize=(7, 3)) 
ax[O]. scatter (2 speal[y—0, 0], X spealy—o, 1], 
color= red', marker-' ', alpha=0. E) 
ax[O0]. scattertX spca[y—1, 0], X spea[y—1, 1], 
color=blue’, marker” o', alpha-0.5) 


ax[1]. scatter(X spca[y—0, 0], np. zeros ((500, 12) +0. 02, 


color= red', marker- '',alpha-0. 05) 


ax[1]. 2catter(X spca[y—1, 0], np. zeros ((500, 123 —0. 02, 


color-'blue',marker-'o', alpha-0. 5) 


ax[O]. set_xlabel ( PCi^) 
ax[O0]. set_ylabel ( PEZ) 

[1]. set yim t[-1, 1] 
ax[1]. set_yticks ([]} 
ax[1]. set xlabel C Poi’) 
plt. show Q 
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标准 PCA 效 果 不 好 ， 处 理 后 不 能 应 用 线性 分 类 器 。 


再 来 看 看 RBF 核 PCA 的 效果 能 不 能 让 我 们 满意 : 
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In [i103]: X kpca = rbf kernel pca(X, gamma-15, n components=2) 


In [i104]: flg, ax = plt. subplots(nrows=1, ncols-2, figsize=(7, 32) 
ax[0]. scatter kpcaly—0, 0], X_kpcaly—o, 1], 
color="red’, marker-' ', alpha=0. 5) 
axlO]. scatter kpealy—1, 0], X kpea[y—1, 1], 
color=blue’, marker- o', alpha=0. 5) 


axli]. catter(X kpca[y—0, 0], np. zeros ((500, 12) 40.02, 
color= red’, marker-' " , alpha=0. 05) 

ax[1].scatter(X kpca[y—1, Ol, np. zeros ((500, 12) —0. 02, 
color= blue ,marker-'o', alpha=0. 5) 

ax[0]. set xlabelC PC1') 

ax[0]. set ylabelC PEZ] 

axli]. set ylini[-1, 1]? 

ax[1]. set yticks ([]} 

ax[1]. set_xlabel © PC1'? 

plt. show Q 
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Wow， 结果 非 常 好 。 


映射 新 的 数据 点 


在 前 面 的 两 个 例子 中 ， 我 们 将 原始 的 数据 集 映射 到 新 的 特征 空间 。 不 过 在 实际 应 用 中 ， 我 们 
常常 需要 将 多 个 数据 集 转 换 ， 比 如 训练 集 和 测试 集 ， 还 有 可 能 在 训练 好 模型 后 ， 又 收集 到 的 
新 数据 。 在 本 节 ， 你 将 学 习 如 何 将 不 属于 训练 集 的 数据 进行 映射 。 


还 记得 在 标准 PCA 中 ， 我 们 通过 计算 转换 矩阵 * 输 入 样本 ， 得 到 映射 后 的 数据 。 转 换 和 矩阵 的 每 
一 列 是 我 们 从 协 方差 矩阵 中 得 到 的 k 个 特征 向 量 。 现 在 ， 如 何 将 这 种 思路 应 用 到 核 PCA? 在 核 
PCA 中 ， 我 们 得 到 的 特征 向 量 来 自 归 一 化 的 核 和 矩阵 (centered kernel matrix)， 而 不 是 协 方 差 矩 
阵 ， 这 意味 着 样本 已 经 被 映射 到 主 成 分 轴 岂 .因此 ， 如 果 我 们 要 把 一 个 新 样本 映射 到 主 成 分 
轴 ， 我 们 要 按照 下 式 .: 


Am. 
p(x’) v 
ERLE? SARAR” PERM BABA > HATER BETH 0 


和 标准 PCA 不 同 的 是 ， 核 PCA 是 一 种 基于 内 存 的 方法 ， 这 是 什么 意思 呢 ? 意思 是 每 次 对 新 样 
本 进行 映射 时 就 要 用 到 所 有 的 训练 集 。 因 为 要 计算 训练 集中 每 个 样本 和 新 样本 工 之 问 的 RBF 核 
(相似 度 ): 


yy hi Ley Ae") 


| c M 
- Y a? k (x^ xt?) 


其 中 ， 核 矩阵 的 特征 向 量 ”和 特征 值 ” 满足 条 件 : o 


计算 每 一 个 训练 集 样 本 和 新 样本 的 卢 人 jj 后 ， 我 们 必须 用 特征 值 对 特征 向 量 做 归 一 化 。 所 以 呢 ， 
我 们 要 修改 一 下 前 面 实现 的 RBF PCA， 能够 返回 核 矩 阵 的 特征 向 量 : 


from scipy.spatial.distance import pdist, squareform 
from scipy import exp 

from scipy.linalg import eigh 

import numpy as np 


def rbf kernel pca(X, gamma, n components): 


RBF kernel PCA implementation. 


4 Calculate pairwise squared Eculidean distances 
sq dists = pdist(X, 'sqeuclidean' ) 


mat sq dists - squareform(sq dists) 

#Compute the symmetric kernel matrix 

K = exp(-gamma * mat sq dists) 

#Center the kernle matrix 

N = K.shape[0] 

one n = np.ones((N, N)) / N 

K = K - one n.dot(K) - K.dot(one n) + one n.dot(K).dot(one n) 


#Obtaining eigenpairs from the centered kernel matrix 
eigvals, eigvecs - eigh(K) 


alphas - np.column stack((eigvecs[:, -i] 
for i in range(1,n_components+1) ) ) 


#Collect the corresponding eigenvalues 
lambdas = [eigvals[-i] for i in range(1, n components-1)] 


return alphas, lambdas 
现在 ， 我 们 创建 一 个 新 的 半月 形 数 据 集 ， 然 后 用 更 新 过 的 核 PCA 将 其 映射 到 一 维 子 空间 : 
In [101]: X, y = make moons tn samples-100, random ztate-123) 


In [102]: alphas, lambdas -rbf kernel pca, zamma-15, n_components=1) 


为 了 检验 对 于 新 数据 点 的 映射 表现 ， 我 们 假设 第 26 个 点 时 新 数据 点 工 ， 我 们 的 目标 就 是 将 这 个 
新 数据 点 进行 映射 : 


In [103]: | x new = X[25] 


In [104]: x new 


Out[104]: array([ 1.8713, 0.0093]) 
In [105]: x proj = alphas[25] 


In 4106]: [eee 
Out[106]: arrayt[ 0.0788] 
In [107]: def project xíx new, X, gamma, alphas, lambdas): 
pair dist = np.array([np.sum((x new-row)X*2) for row in X]? 


k = npn.expi-zamma * pair dist) 
return k. dot (alphas/lambdaz? 


1& A project x 元 数 ， 我 们 能 够 对 新 数据 样本 进行 映射 : 


In [i108]: x repre] = project xíx new, X, zamma-15, alphas=alphas, lambdas-lambdaz? 
x repre] 


Out[108]: array([ 0.0788] 


最 后 ， 我 们 将 第 一 主 成 分 进行 可 视 化 : 


In [109]: plt. 
plt. 


nlt. 


plt. 


plt. 
plt. 


0.010 
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0.000 
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—-0.010 
-0.20 -0.15 -0.10 -0.05 000 005 010 015 020 


scatter(alphas[y—0, 0], mp. zeros((50)), 
color = red , marker- . alphasü 5) 

szcatter(alphas[y—1, 0], mp. zeros((50)), 
color= blue',marker-' o',alpha-0. 5) 

scatterix proj, 0, color- black’, 
label= original prejection of point X[25] , 
Barker-' ', g-100) 

scatterix repro], 0, color= green’, 
label=’ remapped point X[25]', 
narker-'x',z-500) 

legend (scatterpoints=1) 

show () 


A original projection of point X[25] 
remapped point X[25] 





sklearn 中 的 核 PCA 
sklearn.decomposition 中 有 核 PCA 的 实现 ， 看 看 怎么 用 : 


In [i110]: from sklearn. decomposition import KernelPCA 
In [111]: X, y = make moons (n samples-100, random ztate-123) 


In [112]: scikit kpca = KernelPCA(n components-2, 
kernel- rbf', zamma-15) 


In [115]: X skernpca = scikit kpca.fit transform (X) 
i$ it kernel Bik XE HF E) 85 AK HBR o 


将 转换 后 的 数据 可 视 化 : 


In [116]: plt.scatteriX skernpcal[y—0, 0], X skernpcaly—0, 1], 
color= red , marker-' ', alpha=0. 5) 
plt.scatter(X skernpcaly—1, 0], X skernpcaly—1, 1], 
color=blue’, marker- o', alpha-0.5) 
olt. xlabel C PC1'? 
olt. ylabel C PCZ ) 
plt. show Q 
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本 和 草 ， 你 学 习 了 三 种 基本 的 用 于 特征 抽取 的 降 维 方法 : 标准 PCA、LDA 和 核 PCA。 


使 用 PCA， 我 们 将 数据 映射 到 一 个 低 维 度 的 子 空 间 并 且 最 大 化 正 交 特征 轴 的 方 竣 ，PCA 不 考 
虑 类 别 信 息 。LDA 是 一 种 监督 降 维 方法 ， 意 味 着 他 要 考虑 训练 集 的 类 别 信 息 ， 目 标 是 将 类 别 
最 大 化 地 可 分 。 最 后 ， 你 学 习 了 核 PCA， 它 能 够 将 非 线 性 数据 集 映 射 到 低 维 特征 空间 ， 然 后 


数据 变 成 线性 可 分 了 。 


^ NC CREE pm I| 4p TTE 
第 六 草 模型 评估 和 调 参 
前 面 几 章 ， 你 学 习 了 分 类 问题 要 用 到 的 机 器 学 习 算 法 以 及 必 备 的 数据 预 处 理 算法 。 现 在 ， 是 
时 候 学 习 如 何 训练 一 个 好 用 的 机 器 学 习 模 型 了 ， 二 者 要 涉及 到 两 个 重要 的 课题 : 模型 评估 和 
参数 寻 优 。 
本 章 ， 我 们 要 学 习 : 

e 获得 对 模型 性 能 的 无 偏差 估计 


e 诊断 常见 的 机 器 学 习 问 题 
A. 


e 使 用 不 同 的 性 能 评价 指标 对 模型 评估 


通过 管道 创建 工作 流 


当 我 们 应 用 不 同 的 预 处 理 技巧 时 ， 比 如 对 特征 标准 化 、 对 数据 主 成 分 分 析 ， 我 们 都 需要 重复 
利用 某 些 参数 ， 比 如 对 训练 集 标 准 化 后 还 要 对 测试 集 进 行 标准 化 (二 者 必须 使 用 相同 的 参数 )。 


本 节 ， 你 会 学 到 一 个 非常 有 用 的 工具 : 管道 (pipeline)， 这 里 的 管道 不 是 Linux 中 的 管道 ， 而 是 
sklearn 中 的 Pipeline 类 ， 二 者 做 的 事情 差不多 。 


读 取 Breast Cancer Wisconsin 数 据 集 


dum 我 们 要 用 到 一 个 新 的 二 分 类 数据 集 Breast Cancer Wisconsin， 它 包含 569 个 样本 。 
一 条 数据 前 两 列 是 唯一 的 ID 和 相应 的 类 别 值 (M= 和 恶性 肿瘤 ，B= 良 性 肿瘤 )， 第 3-32 列 是 实数 
值 的 特征 。 


话 不 多 说 ， 先 读 取 数据 集 ， 然 后 将 y 转 为 0，1: 


In [3]: df = pd read csv https ://archive.ics. uci. edu/nl /machine-learning-databases/breast-cancer-wisconsin/wdbc. data’, header=None) 
In [4]: from sklearn. preprocessing import LabelEncoder 
In [5]: |X = df.iloc[:, 2:]. values 

In [12]: | y = df.loc[:, 1]. values 


In [14]: np.unique(y) 


Out[14]: array([B', 'W], dtype=object) 
In [15]: le = LabelEncoderO 
In [16]: | y = le.fit transforn(y) 


In [17]: rnp.unique(y) 


Out[17]: array([0, 1], dtype-int64) 
接着 创建 训练 集 和 测试 集 : 


In [3]: df = pd read csv https ://archive.ics. uci. edu/nl/machine-learning-databases/breast-cancer-wisconsin/wdbc. data’, header=None) 
In [4]: from sklearn. preprocessing import LabelEncoder 
In [5]: | X = df.iloc[:, 2:]. values 

In [12]: y = df.loc[:, 1].values 


In [14]: np.unique(y) 


Out[14]: array([B', 'W], dtype=object) 
In [15]: le = LabelEncoder() 
In [16]: y = le.fit transforn(y) 


In [17]: rnp.unique(y) 


Qut[17]: array([0, 1], dtype-int64) 
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前 几 章 说 过 ， 很 多 机 器 学 习 算 法 要 求 特征 取 值 范围 要 相同 。 因 此 ， 我 们 要 对 BCW 数 据 集 每 一 


a ~ ， 然 后 才能 应 用 到 线性 分 类 有 器。 此 外 ， 我 们 还 想 将 原始 的 30 维 度 特征 压缩 的 2 
维度 区 给 PCA 来 做 。 


之 前 我 们 都 是 每 一 步 执 行 一 个 操作 ， 现 在 我 们 学 习 用 管道 将 StandardScaler, PCA 和 
LogisticRegression 连 接 起 来 : 


In [20]: from sklearn.preprocessing import StandardScaler 
from sklearn. decomposition import PCA 
from sklearn.linear model import LogisticRegression 
from sklearn.pipeline import Pipeline 


In [21]: pipe lr = Pipeline([(C scl’, StandardScalerQ), 

( pca, FCA ín components-2)), 

C clf, LogisticRegression(random_state=1)) ]) 
In [22]: | pipe lr. fit(X train, y train) 


Out[22]: Pipeline(steps-[(C scl’, StandardScaler(copy-True, with_mear=True, with std-Tru&)), C pea’, PCA(copy-True, n components-2, whiten-False)), 
C clf’, LogisticRezression(C-1.0, class weight-None, dual-False, fit intercept-True, 
intercept scaling-1, max iter-100, multi class-'ovr', n jobs-1, 
penalty-'l2', random state-1, solver-'liblinear', tol=0. 0001, 
verbose-0, warm start-False))] 


In [23]: print( Test Accuracy: 9$.3f' Wpipe lr.score(X test, y test)) 


Test Accuracy: 0. 947 


Pipeline 对 象 接收 元 组 构成 的 列表 作为 输入 ， 每 个 元 组 第 一 个 值 作 为 变量 名 ， 元 组 第 二 个 元 素 
是 sklearn 中 的 transformer 或 Estimator ° 


管道 中 间 每 一 步 人 的 transformer 构 成 ， 最 后 一 步 是 一 个 Estimator。 我 们 的 例子 中 ， 
管道 包含 两 个 中 间 上 和 步骤， 一 个 StandardScaler 和 一 个 PCA， 这 俩 都 是 transformer， 逻 辑 斯 芝 


回归 分 类 器 是 Estimator。 


当 管 道 pipe_lr 执 行 代 方 法 时 ， 首 先 StandardScaler 执 行 ft 和 transform 方 法 ， 然 后 将 转换 后 的 数 
据 输 入 给 PCA，PCA 同 样 执行 ft 和 transform 方 法 ， 有 也 后 将 数据 输入 给 LogisticRegression， 训 
练 一 个 LR 模型 。 


ate 


` 立 
ERE 


来 说 ， 中 间 有 多 少 个 transformer 都 可 以 。 管 道 的 工作 方式 可 以 用 下 图 来 展示 (一 定 要 
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Reduction 
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K 折 交叉 验证 评估 模型 性 能 


训练 机 器 学 习 模 型 的 关键 一 步 是 要 评估 模型 的 泛 化 能 力 。 如 果 我 们 训练 好 模型 后 ， 还 是 用 训 
练 集 取 评 估 模 型 的 性 能 ， 这 显然 是 不 符合 逻辑 的 。 一 个 模型 如 果 性 能 不 好 ， 要 么 是 因为 模型 
过 于 复杂 导致 过 拟 合 (高 方差 )， 有 要么 是 模型 过 于 简单 导致 导致 欠 拟 合 ( 高 偏差 )。 可 是 用 什么 方 
法 评价 模型 的 性 能 呢 ? 这 就 是 这 一 节 要 解决 的 问题 ， 你 会 学 习 到 两 种 交 又 验证 计数 ，holdout 
交 又 验证 和 Kk 折 交 又 验证 ， 来 评估 模型 的 泛 化 能 力 。 


holdout method 


评估 模型 泛 化 能 力 的 典型 方法 是 holdout 交 又 验证 (holdout cross validation)。holdout 方 法 很 简 
单 ， 我 们 只 需要 将 原始 数据 集 分 割 为 训练 集 和 测试 集 ， 前 者 用 于 训练 模型 ， 后 者 用 于 评估 模 
Fy 刑 Ay Lt Re AG, ? 


不 过 ， 在 训练 模型 这 一 步 ， 我 们 非常 关心 如 何 选择 参数 来 提高 模型 的 预测 能 力 ， 而 选择 参数 
ii — VAR Atene selection * i£ 4 ix : 不 少 资料 将 选择 何 种 模型 算法 称 为 模型 先 
征 ) ， 参 数 选择 是 非常 重要 的 ， 因 为 对 于 同一 种 机 器 学 习 算 法 ， 如 果 选 择 不 同 的 参数 ( 超 参 
数 )， 模 型 的 性 能 会 有 很 大 差别 。 


dala c UR d ， 我 们 始终 用 测试 集 来 评价 模型 性 能 ， 这 实际 上 也 将 测试 集 变相 地 
转 为 了 训练 集 ， 这 时 候选 择 的 最 优 模 型 很 可 能 是 过 拟 合 的 。 


更 好 的 holdout 方 法 是 将 原始 训练 集 分 为 三 部 分 : 训练 集 、 了 验证 集 和 测试 集 。 训 练 机 用 于 训练 
不 同 的 模型 ， 验 证 集 用 于 模型 选择 。 而 测试 集 由 于 在 训练 模型 和 模型 选择 这 两 步 都 没有 用 

到 ， 对 于 模型 来 说 是 未 知 数据 ， 因 此 可 以 用 于 评估 模型 的 泛 化 能 力 。 下 图 展示 了 holdout 方 法 
的 步骤 : 


Original set 


Training set Test set 


Training, tuning, and 
evaluation 


Machine learning 
algorithm 











当然 holdout 方 法 也 有 明显 的 缺点 ， 它 对 数据 分 割 的 方式 很 敏感 ， 如 果 原 始 数 据 集 分 割 不 当 ， 
这 包括 训练 集 、 验 证 集 和 测试 集 的 样本 数 比 例 ， 以 及 分 割 后 数据 的 分 布 情况 是 否 和 原始 数据 
集 分 布 情况 相同 等 等 。 所 以 ， 不 同 的 分 割 方式 可 能 得 到 不 同 的 最 优 模型 参数 。 


kat X LIATE 


k 折 交叉 验证 的 过 程 ， 第 一 步 我们 使 用 不 重复 抽样 将 原始 数据 随机 分 为 k 份 ， 第 二 步 k-1 份 数据 
用 于 模型 训练 ， 剩 下 那 一 份 数 据 用 于 测试 模型 。 然 后 重复 第 二 步 k 次 ， 我 们 就 得 到 了 Kk 个 模型 
和 他 的 评估 结果 ( 译 者 注 : 为 了 减 小 由 于 数据 分 割 引入 的 误差 ， 通 常 k 折 交叉 验证 要 随机 使 用 不 
同 的 划分 方法 重复 p 次 ， 第 见 的 有 10 次 10 折 交叉 验证 ) 。 


然后 我 们 计算 k 折 交叉 验证 结果 的 平均 值 作为 参数 /模型 的 性 能 评估 。 使 用 k 折 交叉 验证 来 寻找 
最 优 参数 要 比 holdout 方 法 更 稳定 。 一 旦 我 们 找到 最 优 参数 ， 要 使 用 这 组 参数 在 原始 数据 集 上 
训练 模型 作为 最 终 的 模型 。 


k 折 交 又 验证 使 用 不 重复 采样 ， 优 点 是 每 个 样本 只 会 在 训练 集 或 测试 中 出 现 一 次 ， 这 样 得 到 的 
模型 评估 结果 有 更 低 的 方法 。 


下 图 演示 了 10 折 交 又 验证 : 


EN 


Training folds Test fold 


1* iteration 


sew | | | | | | | | E 
sewn | | | | | | | MH | | 


E 
owen MET T TI T ITI IS 





至 于 k 折 中 的 k 到 底 设 定 为 多 少 ， 这 个 又 是 一 个 调 参 的 过 程 ， 当 然 了 ， 这 一 步 很 少 有 人 会 调 

参 ， 一 般 都 是 用 10. 但 是 如 果 你 的 数据 集 特别 小 ， 我 们 当然 布 望 训练 集 大 一 点 ， 这 时 候 就 要 设 
定 大 一 点 的 K 值 ， 因 为 k 越 大 ， 训 练 集 在 整个 原始 训练 集 的 点 比 就 越 多 。 但 是 呢 ，k 也 不 能 

大 ， 一 则 是 导致 训练 模型 个 数 过 多 ， 二 则 是 k 很 大 的 情况 下 ， 各 个 训练 集 相 差不多 ， 导 致 高 方 
差 。 要 是 你 的 数据 集 很 大 ， 那 就 把 k 设 定 的 小 一 点 咯 ， 比 如 5. 


其 实 呢 ， 在 将 原始 数据 集 划 分 为 k 部 分 的 过 程 中 ， 有 很 多 不 同 的 采样 方法 ， 比 如 针对 非 平 衡 数 
据 的 分 层 采 样 。 分 层 采 样 就 是 在 每 一 份子 集中 都 保持 原始 数据 集 的 类 别 比 例 。 比 如 原始 数据 
REŽ : 负 类 =3:1， 这 个 比例 也 要 保持 在 各 个 子 集中 才 行 。sklearn 中 实现 了 分 层 k 折 交 又 验证 
哦 : 


In [186]: import numpy as np 


In [17]: from sklearn. cross validation import StratifiedKFold 


In [18]: kfold = StratifiedKFold(y-y train, 
n folds-10, 


random state=1) 


In [19]: scores - [] 


In [21]: for k, (train, test) in emmerate(kfold): 
pipe lr.fit(X train[train], y train[trainl?) 
score = pipe lr.scoretX train[test], y train[test]) 
scores. appendíscore) 
print(’ Fold: Ws, Class dist.: Ws, Acc: W.3f % (kH, np. bincount(_train[train]}, score?) 


Fold: 1, Class dist.: [258 153], dec: 0.881 
Fold: 2, Class dist.: [256 153], Acc: 0.978 
Fold: 3, Class dist.: [256 153], Acc: 0.978 
Fold: 4, Class dist.: [256 153], Acc: 0.913 
Fold: 5, Class dist.: [256 153], Acc: 0.935 
Fold: 8, Class dist.: [257 153], Acc: 0.978 
Fold: 7, Class dist.: [257 153], Acc: 0, 933 
Fold: 8, Class dist.: [257 153], Acc: 0, 956 
Fold: 9, Class dist.: [257 153], dec: 0.978 
Fold: 10; Class dist.: [257 153], cc: 0.956 


In [22]: print CV accuracy: W. 3f +- W.3f' % p. mean(scores), np.stdiscores))) 


CY accuracy: 0.950 +/- 0.029 


sklearn 就 是 这 么 方便 ， 此 外 ， 更 人 性 化 的 是 sklearn 还 实现 了 一 个 直接 得 到 交叉 验证 评估 结果 
&]Z ikcross val score( 内 部 同样 是 分 层 K 折 交叉 验证 ): 


In [23]: from sklearn.cross validation import cross val score 


In [24]: scroes = cross val score(estimator-pipe lr, 
X-X traln, 
y-y train, 
cv-10, 
n jobs-1) 
In [25]: print(CV accuracy scores: %s’ scores) 
CV accuracy scores: [0.89130434782608692, 0.97826086956521741, 0.97826086956521741, 0.91304347826086951, 0.93478260869565222, 0.977TTTTTTTTTT 
77775, 0.93333333333333335, 0. 9555555555555556, 0. 97777777777777775, 0. 9555555555555556] 


In [27]: print( CV accuracy: %. 3f +/- W.3f' %(mp. mean(scores), np.std(scores))) 


CV accuracy: 0.950 +/- 0.029 


JJ 


cross val _ score 方法 还 支持 并 行 计 算 。 


Note 交 又 验证 是 如 何 评 估 泛 化 能 力 的 方差 ， 这 个 问题 超出 了 本 书 的 范围 ， 如 果 你 感 兴 趣 ， 可 
VA 3x Analysis of Variance of Cross-validation Estimators of the Generalized Error. Journal 
of Machine Learning Research, 6:1127-1168, 2005 


使 用 学 习 曲 线 和 验证 曲线 调试 算法 


一 节 我 们 学 习 两 个 非 第 有 用 的 诊断 方法 ， dH A o 他 们 就 是 学 习 曲 线 
bend curve )fe 327 W X (validation curve)。 学 习 曲 线 可 以 判断 学 习 算 法 是 否 过 拟 合 或 者 欠 
拟 合 。 


使 用 学 习 曲 线 判 别 偏差 和 方差 问题 


如 果 一 个 模型 相对 于 训练 集 来 说 过 于 复杂 ， 上 比如 参数 太 多 ， 则 模型 很 可 能 过 拟 合 。 避 免 过 拟 
合 的 手段 包含 增 大 训练 集 ， 但 这 是 不 容 务 做 到 的 。 通 过 画 出 不 同 训练 集 大 小 对 应 的 训练 集 和 
验证 集 准 确 举 ， 我 们 能 够 很 轻松 滴 检 测 模 型 是 否 方 差 偏 高 或 偏差 过 高 ， 以 及 增 大 训练 集 是 否 
有 用 。 


High bias High variance 


Number of training samples : Number of training samples 


Good bias-variance trade-off 








= = = Training accuracy 
== Validation accuracy 


Desired accuracy 





Number of training samples 


上 图 的 左上 角子 图 中 模型 偏差 很 高 。 它 的 训练 集 和 了 验证 集 准确 率 都 很 低 ， 很 可 能 是 欠 拟 合 。 
解决 欠 拟 合 的 方法 就 是 增加 模型 参数 ， 上 比如， 构建 更 多 的 特征 ， 减 小 正则 项 。 


上 图 右上 角子 图 中 模型 方差 很 高 ， 表 现 训 
方法 有 增 大 训练 集 或 者 降低 模型 复杂 度 ， 


这 俩 问题 可 以 通过 


Uu 


4E H 25. 解 决 。 


我 们 先 看 看 学 习 曲 线 十 
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import matplotlib.pyplot as plt 
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比如 增 大 正则 项 ， 或 者 通 


from sklearn.learning curve import learning curve 


pipe lr = Pipeline([ 


train sizes, 


train mean = np.mean(train scores, axis-1) 


Üsacl', 
Cel. 


StandardScaler Ô), 
LogisticRegression( 


penalty-'12', random state-0))] 


train std 


tes 


t mean 


traln scores, test scores = 


np.std(train scores, axis=1) 


np.mean(test scores, axis=1) 


test std = np.std(test scores, axis-1) 


plt. plot (train sizes, train mean, 
color=” blue’, marker-'o', 
narkersize-5, 

label= training accuracy ) 


plt. 


DI 


plt. 


BILE 
Dit: 
plt. 
plt. 
nit. 
plt. 


fill between(train sizes, 


train mean + train std, 
train mean — train std, 


alpha-0.15, color= blue’) 
plot(train sizes, test mean, 
color= green’, linestyle-'--', 


3 


marker= s , markersize=5, 
label=’ validation accuracy ) 


sridQ 


show Ô 


100 


0.85 


fill_between(train_sizes, 


test_mean + test_std, 
test_mean — test_std, 


alpha=0.15, color= green’) 


xlabel( Number of training samples’) 
ylabel( Accuracy ) 

legend(loc- lower right’) 

ylin([0.8, 1.0] 


learning curve(estimator-pipe lr, 


e—e training accuracy 
æ a validation accuracy 
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o 解决 过 拟 合 的 
择 减 少 特 征 数 。 


train sizes-np.linspace(0.1, 1.0, 10), 


learning_curve 中 的 train_sizes 参 数控 制 产生 学 习 曲 线 的 训练 样本 的 绝对 /相对 数量 ， 此 处 ， 我 
们 设置 的 train sizes=np.linspace(0.1, 1.0, 10)， 将 训练 集 大 小 划 人 等 的 区 间 。 
learning_curve 默 认 使 用 分 层 k 折 交叉 验证 计算 交叉 验证 的 准确 洽 ， 我 们 通过 cv 设置 kK。 


上 图 中 可 以 看 到 ， 模 型 在 测试 集 表 现 很 好 ， 不 过 训练 集 和 测试 集 的 准确 率 还 是 有 一 段 小 间 
隔 ， 可 能 是 模型 有 点 过 拟 合 。 


用 验证 曲线 解决 过 拟 合 和 欠 拟 合 


验证 曲线 是 非 第 有 用 的 工具 ， 他 可 以 用 来 提高 模型 的 性 能 ， 原 因 是 他 能 处 理 过 拟 合 和 欠 拟 合 


问题 。 


验证 曲线 和 学 习 曲 线 很 相近 ， 不 同 的 是 这 里 画 出 的 是 不 同 参数 下 模型 的 准确 府 而 不 是 不 同 训 
练 集 大 小 下 的 准确 率 : 


In [44]: from sklearn. learning curve import validation curve 
In [45]: | param range = [0. 001, 0.01, 0.1, 1.0, 10.0, 100.0] 


In [47]: train scores, test scores = validation curve lestimater=pipe lr, 
X-X train, 
y-y train, 
param name= clf CC, 
param range-param ranze, 
ev=10) 


In [48]: train mean = np.meanttrain scores, axis=1) 
In [49]: train std = np.std(train scores, axis=1) 
In [50]: test mean = np.meaní(test scores, axis-1) 


In [S51]: test std-np.stdí(test scores, axis=1) 


In [S52]: plt.plot(param range, train mean, 
color= blue, marker- o', 
narkerzize-5, 
label= training accuracy } 

plt. fill betweseniparam range, train mean + train std, 
train mean — train std, alpha=0.15, 
color= blue ) 

plt.plotíparam range, test mean, 
color- green, linestyle- == ， 
marker= s , markersize=5, 
label= validation accuracy ) 

plt. fill betwesentparam range, 
test mean + test std, 
test mean — test std, 
alpha-0.15, color- green ) 

plt. zridü 

plt.xscalet log ) 

plt. lezend(loc- lower rizht') 

plt. xlabel ( Parameter C’ j} 

plt. ylabel ( Accuracy’ } 

plt. ylim([0.8, 1.0] 

plt. show Q 


*—* training accuracy 
æ * validation accuracy 





10° 10° 10° 10° 10° 10° 
Parameter C 


我 们 得 到 了 参数 C 的 验证 曲线 。 


felearning curve 方 法 很 像 ，validation curve 方 法 使 用 采样 k 折 交 又 验证 来 评估 模型 的 性 能 。 
在 validation curve 内 部 ， 我 们 设 定 了 用 来 评估 的 参数 ， 这 里 是 C, 也 就 是 LR 的 正则 系数 的 倒 


数 。 


观察 上 图 ， 最 好 的 C 值 是 0.1 © 


通过 网 格 搜索 调 参 


机 器 学 习 算 法 中 有 两 类 参数 : 从 训练 集中 学 习 到 的 参数 ， 比 如 逻辑 斯 莆 回归 中 的 权重 参数 ， 
另 一 类 是 模型 的 超 参 数 ， 也 就 是 需要 人 工 设 定 的 参数 ， 比 如 正则 项 系数 或 者 决策 树 的 深度 。 


NM 
NS 


前 一 节 ， 我 们 使 用 验证 曲线 来 提高 模型 的 性 能 ， 实 际 上 就 是 找 最 优 参 数 。 这 一 节 我 们 学 习 另 
一 种 常用 的 超 参 数 寻 优 算法 : 网 格 搜索 (grid search) » 


网 格 搜 索 听 起 来 高 大 上 ， 实 际 上 简单 的 一 笔 ， 就 是 暴力 搜索 而 已 ， 我 们 事先 为 每 个 参数 设 定 
一 组 值 ， 然 后 穷 举 各 种 参数 组 合 ， 找 到 最 好 的 那 一 组 。 


In [53]: from sklearn. grid search import GridSearchCV 
from sklearn.svm import SVC 


In [54]: pipe sve = Pipeline([(@ scl’, StandardScaler(), 
C clf, SVC(random state-1)?]) 


In [55]: param range - [0.0001, 0.001, 0.01, 0.1, 1.0, 10.0, 100.0, 1000.0] 


In [56]: | param zrid = [1 
"elf C : param ranee, 
"elf Lernel -| linear’ |}, 
i 
"elf (© : param range, 
‘clf gamma’ : param range, 
"celf kernel : | xrbf']|] 


In [57]: E 


GridSearchcl (estimator=pipe sve, 
param grid = param zrid, 
scoring= accuracy , 
cv=10, 
n jobs--1) 


In [58]: Besa esr EXE S tram se tea 


In [59]: print(gs. best score ) 


0. 978021 9% e022 


In [80]: print(gs. best params ) 


{cle sd. “elt: .kemel? "linest 


GridSearchCV 中 param _grid 和 参数 是 字典 构成 的 列表 。 对 于 线性 SVM， 我 们 只 评估 参数 C ; 对 
于 RBF 核 SVM， 我 们 评估 C 和 gamma 。 


我 们 通过 best parmas 得 到 最 优 参数 组 合 。 


sklearn 人 性 化 的 一 点 是 ， 我 们 可 以 直接 利用 最 优 和 参数 建 模 (best_estimator ): 


In [61]: | clf = gs.best estimator 


In [62]: | clf. fit(X train, y train) 


Out[62]: Pipeline(steps=[( sel’, StandardScaler(copy-True, with meareTrue, with std-Tru&e), C clf’, SVC(C-0.1, cache size-200, class weight-None, coe 


f0-0. 0, 
decision function shape-None, degree-3, gamma-'auto', kernel-'linear', 
max lter--1, probability-False, random state-1, shrinking-True, 
tol=0. 001, verbose=False)) ]) 


In [63]: print( Test accuracy: %.3f' % clf.score(X test, y test) 


Test accuracy: 0. 965 


Note 网 格 搜索 虽然 不 错 ， 但 是 穷 举 过 于 耗 时 ，sklearn 中 还 实现 了 随机 搜索 ， 使 用 
RandomizedSearchCV 类 ， 随 机 采样 出 不 同 的 参数 组 合 。 


通过 瞬 套 交叉 验 十 选择 和 法 


结合 k 折 交叉 验证 和 网 格 搜索 是 调 参 的 好 手段 。 可 是 如 果 我 们 想 从 茫茫 算法 中 选择 最 合适 的 算 
法 ， 用 什么 方法 呢 ? 这 就 是 本 节 要 介绍 的 齿 套 交叉 验证 (nested cross validation) + Varma 和 
Simon 在 论文 Bias in Error Estimation When Using Cross-validation for Model Selection ¥ 44 
de RAR LOSES MR ER JU 3E ALRE o 


WER LISTE SIP Aka SOLUS SE E BE A 1 4 Re MIA IR o EAP ABR SCORE JH] 
TARRAA . PRR RY A5 IE X LGM fe24m ASR LISTE AAA LH 
和 证， 也 被 称 为 5*2 交 叉 验 十 : 


Outer loop 


Train with optimal 
parameters 











Training fold Validation fold 


Inner loop 


Tune parameters 





sklearn 中 可 以 如 下 使 用 获 套 交叉 验证 : 


In [6864]: gs = GridSearchCl (estimater=pipe sve, 
param grid=param grid, 
scoring= accuracy , 
cv=10, 
n jobs--1) 


In [65]: |Sceres = cross val sccreles, X y, seerlHg- HOCUENEW | oo 


In [66]: | print CY accuracy: W.3f +/ & ST 4 ( 
np. mean(scores), np.stdíscores))) 


CY accuracy: 0.972 +/- 0.012 


我 们 使 用 赂 套 交 又 验证 比较 SVm 和 决策 树 分 类 器 : 


In [67]: from sklearn. tree import DecisionTreeClassifier 

zs = GridSearchcy i 
estimator=DecisionlreeClassifier (randem state), 
param zrid-[ 
nae depth : [1, 2, 2, 4 5 t T7, Monel}, 
scorinz- accuracy , 
cy=5) 

scores = cross val scoreizs, 
X train, 
vy traln, 
scorinz- accuracy , 
CUN 

print( CV accuracy: W.3f +- W.3f & ¢ 
np.neaniscores), np. std(scores))) 


CV accuracy: 0.908 +/- 0.045 


不 同 的 性 能 评价 指标 


在 前 面 几 个 章节 ， 我 们 一 直 使 用 准确 率 (accuracy) 来 评价 模型 的 性 能 
择 。 除 此 之 外 ， 还 有 不 少 评 价 指标 哦 ， 比 如 查 准 率 (precision)、 查 全 率 (recall) 和 F1 值 (F1- 


score). 


LA FBS 


在 讲解 不 同 的 评价 指标 之 前 ， 我 们 先 来 学 习 一 个 概念 : 


学 习 算 法 表现 的 和 矩阵。 混淆 矩阵 是 一 个 平方 矩阵 ， 其 中 记录 了 一 个 分 类 器 的 TP(true 
positive) ` TN(true negative) ` FP(false positive) 和 FN(false negative): 


Predicted class 


P 


True 
Positives 


(TP) 





False 
N | Positives 
(FP) 


N 


False 
Negatives 


(FN) 





True 
Negatives 
(TN) 





| 


计算 着 四 个 指标 并 不 复杂 ， 不 过 能 不 手 算 当 然 就 不 手 算 啦 ，sklearn 中 提供 了 confusion_matrix 


Hy HE: 





， 通 第 这 是 一 个 不 错 的 选 


Bt vA H (confusion matrix), 能 够 展示 


不 同 的 性 能 评价 指标 
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第 七 草 集成 学 习 


前 一 草 我 们 主要 学 习 了 怎样 调 参 以 及 对 模型 进行 评估 。 这 一 草 ， 我 们 就 要 实际 运用 这 些 技 
得 到 的 结果 通常 比 单个 分 类 器 要 好 。 


巧 ， 继 而 探索 构建 集成 分 类 器 的 不 同方 法 ， 集 成 分 类 器 
这 一 草 你 将 要 学 习 : 


e 基于 投票 的 预测 
e 通过 可 重复 采用 构建 训练 集 ， 降 低 过 拟 合 
e 以 弱 学 习 器 为 基础 ， 从 错误 中 学 习 来 构建 强 学习 器 


集成 学 习 背 后 的 思想 是 将 不 同 的 分 类 器 进行 组 合 得 到 一 个 元 分 类 器 ， 这 个 元 分 类 器 相对 于 单 


my Re A 


个 分 类 器 拥有 更 好 的 泛 化 性 能 。 上 比如 ， 假 设 我 们 从 10 位 专家 那里 分 别 得 到 了 对 于 某 个 事件 的 
预测 结果 ， 集 成 学 习 能 够 对 这 10 个 预测 结果 进行 组 合 ， 得 到 一 个 更 准确 的 预测 结果 。 


后 面 我 们 会 学 到 ， 有 不 同 的 方法 来 创建 集成 模型 ， 这 一 节 我 们 先 解决 一 个 基本 的 问题 : Att 
么 要 用 集成 学 习 ? 她 为 什么 就 比 单个 模型 效果 要 好 呢 ? 


WA WO 
voting)。 投 票 法 意味 着 我 们 在 得 到 最 后 的 预测 类 别 — 类 别 是 大 多 数 单 分 类 器 都 预 
测 的 ， 这 里 的 大 多 数 一 般 是 大 于 50% 。 更 严格 来 说 ， 投 票 法 只 适用 于 二 分 类 ， 当 然 他 很 容易 
就 扩展 到 多 分 类 情况 : 多 数 表 决 (plurality voting). 


下 图 展示 了 一 个 投票 法 的 例子 ， 一 共 10 个 基本 分 类 器 : 


eoeoc0000000 
0900000AA2^25 ve» 
S@@@e@AAA |» ma 


Unanimity 














441 AM DZ E | A m ARI] 89 273€ RC, C m), 这 里 的 分 类 器 可 以 是 决策 树 、SVM 或 者 
LR 等 。 我 们 当然 也 可 以 用 同一 种 分 类 器 ， 只 不 过 在 训练 每 一 个 模型 时 用 不 同 的 参数 或 者 不 同 
AGE Na 之 种 策略 的 例子 ， 它 由 不 同 的 决策 树 模型 
构成 。 这 图 展示 了 用 投票 策略 的 集成 方法 步骤 : 


Training set 





_ | | 
| | z 
v | v | 
. m 
Classification NE | &. 
models i r ees m 一 ct 
! | | 
| ¥ ¥ Y 
Predictions P, P. — P. 
| 
* ¥ ¥ Y 
Voting 
| 
Y 
Final prediction P, 


投票 策略 非常 简单 ， 我 们 收集 每 个 单 分 类 器 和 i 的 预测 类 别 ,将 票数 最 多 的 ”作为 预测 结果 : 


y= mode|C LL, C, Dou. (x)} 


以 二 分 类 为 例 ， 类 别 class1=-1, class2=+1, 投票 预测 的 过 程 如 下 , 把 每 个 单 分 类 器 的 预测 结果 
相 加 ， 如 果 值 大 于 0， 预 测 结果 为 正 类 ， 否 则 为 负 类 : 


if dC, (x)20 


C(x) 7 sign > Cs i tnnt: 
r —] otherwise 





读 到 这 里 ， 我 想 大 家 都 有 一 A 习 就 比 单 分 类 器 效果 好 ?道理 很 简单 (一 点 点 
组 合 数 学 知识 )， 假 设 对 于 一 个 二 分 类 问题 ， 有 hn 个 单 分 类 器 ， 每 个 单 分 类 器 有 相等 的 错误 率 


， 并 且 单 分 类 SENSEAK: ， 错误 府 也 不 相关 。 有 了 这 些 假设 ， 我 们 可 以 计算 集成 模型 
的 错误 概 举 : 


p" (1 -&y = E ensemble 





如 果 n=11， 错 误 率 为 0.25， 要 想 集 成 结果 预测 错误 ， 至 少 要 有 6 个 单 分 类 器 预测 结果 不 正确 ， 
错误 概 浴 是 : 


P(yzk)2Y " 0.25" (1-2) * = 0.034 


k=6 


集成 结果 错误 率 才 0.034 哦 ， 比 0.25 小 太 多 。 继 承 结果 比 单 分 类 器 好 ， 也 是 有 前 提 的 ， 就 是 你 
这 个 单 分 类 器 的 能 力 不 能 太 差 ， 至 少 要 比 随机 猜测 的 结果 好 一 点 ， 至 少 。 


从 下 图 可 以 看 出 ， 只 要 单 分 类 器 的 表现 不 太 关 ， 集 成 学 习 的 结果 总 是 要 好 于 单 分 类 器 的 。 


— Ensemble error | : : | 
=-=- Base error | 


Base/Ensemble error 


0.4 0.6 
Base error 





结合 


zu 


^N 


AX — 


sepal diii length 两 个 维度 特征 ， 类 别 我 们 也 只 是 用 两 类 


JAM 


EJ 


法 


> 看 一 个 具体 的 例子 ， 


不 同 的 分 类 进行 投标 


学 习 使 用 sklearn 进 行 投 票 分 类 数据 集 采 用 |ris 数 据 集 ， 只 使 用 


lris-Versicolor 和 |ris- 


Virginica， 评 判 标 准 使 用 ROC AUC 。 


In 


fits 


In [2]: 


In [3]: 


In [4]: 


In [5]: 


In 


In 


In 


In [10134 


In 


In 


In 


In 
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[6]: 


[411 


[9]: 


ee OE. 


[12]1 


[1311 


[14]: 


from sklearn import datasets 

from sklearn.cross validation import train test split 
from sklearn.preprocessing import StandardScaler 

from sklearn.preprocessing import LabelEncoder 

iris - datasets.load iris() 

X, y = iris.data[50:, [ly 21]; iris.target[50:] 

le = LabelEncoder() 


y = le.fit transform(y) 


我 们 将 数据 集 平 均 分 为 训练 集 和 测试 集 。 


X train, X test, y train, y test - train test split(X, y, test size-0.5, random state-1) 


我 们 训练 三 个 不 同 的 分 类 器 : LR、 决 策 树 和 KNN。 


sklearn. 
sklearn. 
sklearn. 
from sklearn. 
from sklearn. 
import numpy 


from 
from 
from 


cross validation import cross val score 
linear model import LogisticRegression 
tree import DecisionTreeClassifier 
neighbors import KNeighborsClassifier 
pipeline import Pipeline 

as np 


clf1 = LogisticRegression(penalty-'12', C=0.001, random state-0) 
clf2 = DecisionTreeClassifier(max depth-1, criterion-'entropy', random state-0) 
clf3 = KNeighborsClassifier(n neighbors-1, p-2, metric='minkowski' ) 
pipel - Pipeline([['sc', StandardScaler()], 
LD cL£ , GITLiTIT) 
pipe2 = Pipeline([['sc', StandardScaler()], 
[cLE OIf21]1) 
pipe3 = Pipeline([['sc', StandardScaler()], 
[LE ^. GLESTIT) 
clf labels - ['LR', 'DecisionTree', 'KNN'] 


print("10-fold cross validation:'n") 
for clf, label in zip([pipel, pipe2, pipe3], clf labels): 
Scores - cross val score(estimator-clf, X-X train, y-y train, cv-10, 
print("ROC AUC: $0.2f (+/- $0.2f) [$s]" 
$ (scores.mean(), scores.std(), label)) 


scoring-'roc auc') 


10-fold cross validation: 


ROC AUC: 0.92 (+/- 0.20) [LR] 
ROC AUC: 0.92 (+/- 0.15) [DecisionTree] 
ROC AUC: 0.93 (+/- 0.10) [KNN] 
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深度 学 习 


深度 学 习作 为 当下 最 火热 的 机 器 学 习 子 领域 ， 本 章 及 后 续 章节 会 对 其 进行 简要 介绍 。 


IN 


如 果 你 之 前 从 未 了 解 过 深度 学 习 ， 建 议 你 先 阅读 "neural networks and deep learning" 或 者 本 
人 之 前 的 阅读 笔记 神经 网 络 和 深度 学 习 。 


本 章 并 不 会 对 神经 网 络 进行 理论 介绍 ， 而 是 准备 从 实践 出 发 ， 直 接 介绍 目前 最 好 用 的 深度 学 
习 框 梁 (之 一 ) PyTorch 。 


PyTorch 出 自 Facebook， 以 Python 为 第 一 语言 ， 不 论 是 文档 还 是 API， 都 很 容易 上 手 。 


这 里 记录 一 下 阅读 PyTorch Tutorial 时 的 笔记 。 


6027 4t E. 3- PyTorch 


原文 链接 
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